RoBERTa : A Robustly Optimized BERT Pretraining Approach 리뷰

NLP/Paper Review

joannekim0420 2021. 8. 18. 09:17

728x90

160GB 데이터셋 (기존 BERT는 16GB)
masking 을 Dynamic하게

→ sequence 마다 masking pattern을 생성해줌 (기존에는 하나의 마스크만 생성)
NSP은 제거하고 MLM만으로 pre-train + Full-sentence 형식으로 input

> segment-pair (기존 방법) vs sentence-pair → sentence pair는 한 문장이 들어가는데, 긴 문장에 취약해서 segment-pair보다 성능이 더 낮게 나옴.
> Doc-sentences (single document) vs Full-sentences (multiple documents) → multiple documents의 성능이 더 좋지만, batch-size를 다양하게 하기 위해 full-sentences를 사용함.
Batch Size 늘림 (기존 BERT 보다 32배 더)
byte-level BPE(Byte pair Encoding) tokenzier