NLP/Paper Review

RoBERTa : A Robustly Optimized BERT Pretraining Approach 리뷰

joannekim0420 2021. 8. 18. 09:17
728x90

hyperparameter 들을 하나하나 조정하기 힘들고 데이터의 비공개 단점을 개선한 기존 BERT기반 RoBERTa모델 제안

 

성능을 개선하기 위해 바꾼 것

  1. 160GB 데이터셋 (기존 BERT는 16GB)


  2. masking 을 Dynamic하게
     
    → sequence 마다 masking pattern을 생성해줌 (기존에는 하나의 마스크만 생성)

  3. NSP은 제거하고 MLM만으로 pre-train + Full-sentence 형식으로 input

    >  segment-pair (기존 방법) vs sentence-pair → sentence pair는 한 문장이 들어가는데, 긴 문장에 취약해서 segment-pair보다 성능이 더 낮게 나옴.
    > Doc-sentences (single document) vs Full-sentences (multiple documents) → multiple documents의 성능이 더 좋지만, batch-size를 다양하게 하기 위해 full-sentences를 사용함.

  4. Batch Size 늘림 (기존 BERT 보다 32배 더)

  5. byte-level BPE(Byte pair Encoding) tokenzier

> 기존 BERT 는 character-level BPE 의 30K vocabulary 사용 → 50K subword unit으로 늘림

 

Evaluation

GLUE , SQuAD , RACE 의 데이터를 가지고 실험

 

RESULT

  • dev set

  • GLUE result
  • SQuAD Result
  • RACE Result

 

 

논문 : https://arxiv.org/pdf/1907.11692.pdf

참고 : https://brunch.co.kr/@choseunghyek/7