NLP/Paper Review
RoBERTa : A Robustly Optimized BERT Pretraining Approach 리뷰
joannekim0420
2021. 8. 18. 09:17
728x90
hyperparameter 들을 하나하나 조정하기 힘들고 데이터의 비공개 단점을 개선한 기존 BERT기반 RoBERTa모델 제안
성능을 개선하기 위해 바꾼 것
- 160GB 데이터셋 (기존 BERT는 16GB)
- masking 을 Dynamic하게
→ sequence 마다 masking pattern을 생성해줌 (기존에는 하나의 마스크만 생성) - NSP은 제거하고 MLM만으로 pre-train + Full-sentence 형식으로 input
> segment-pair (기존 방법) vs sentence-pair → sentence pair는 한 문장이 들어가는데, 긴 문장에 취약해서 segment-pair보다 성능이 더 낮게 나옴.
> Doc-sentences (single document) vs Full-sentences (multiple documents) → multiple documents의 성능이 더 좋지만, batch-size를 다양하게 하기 위해 full-sentences를 사용함. - Batch Size 늘림 (기존 BERT 보다 32배 더)
- byte-level BPE(Byte pair Encoding) tokenzier
> 기존 BERT 는 character-level BPE 의 30K vocabulary 사용 → 50K subword unit으로 늘림
Evaluation
GLUE , SQuAD , RACE 의 데이터를 가지고 실험
RESULT
- dev set
- GLUE result
- SQuAD Result
- RACE Result