How Multilingual is Multilingual BERT? 리뷰
→ Multilingual BERT의 작동과 성능에 대해서 평가
104개의 언어의 shared vocabulary로 학습.
기본 설정: multilingual 모델이라면, 서로 다른 언어라 하더라도 문장 pair 간 embedding structure는 유사해야한다.
RESULT
1. Nearest Neighbor Accuracy
language specific 한 token level information 의 영향을 크게 받기 때문에 적은 layer에서 정확도가 떨어지고,
BERT는 마지막 layer에 masked language modeling을 수행하기 대문에 language specific information이 필요해서 성능이 감소한다.
2. Typological Features
같은 특징을 가진 언어에서는 cross-lingual transfer learning 이 잘 되지만, 다른 특징을 가진 언어에서는 잘 이루어지지 않음
(SVO languages: Bulgarian, Catalan, Czech, Danish, English, Spanish, Estonian, Finnish, French, Galician, Hebrew, Croatian, Indonesian, Italian, Latvian, Norwegian (Bokmaal and Nynorsk), Polish, Portuguese (European and Brazilian), Romanian, Russian, Slovak, Slovenian, Swedish, and Chinese)
(SOV Languages: Basque, Farsi, Hindi, Japanese, Korean, Marathi, Tamil, Telugu, Turkish, and Urdu.)
3. Effect of vocabulary overlap
vocab이 overlap 돼서 성능이 좋게 나오는 것은 아닌가?
→ BERT-EN 에서는 overlap 에 의존하는 경향이 보이나 multilingual BERT에서는 오히려 나타나지 않음
예를 들어, Ko-En rkxdl vocabulary overlap이 전혀 없는 경우에도 f1 score가 40%이상 나옴.
*Code Switching
대화에서 하나 이상의 언어 교체하여 사용하는 것
ex) Multilingual BERT의 성능은 어때?
*Transliteration (=음차, 음역)
한 언어를 다른 언어로 바꾸어 쓸 대 발음대로 옮겨적는 것
ex) 멀티 링구얼 버트의 성능은 어때?
논문 : https://aclanthology.org/P19-1493.pdf104개의 언어의 shared vocabulary로 학습.