NLP 22

[MTQE]Error detection and error correction for improving quality in MT and human post-editing 리뷰

목적 : Error detection & Correction Rules 정의하여 MT QE 도 하고, human post-editing 작업도 정확하고 수월하게 함. DATA 50 texts translated from ENGLISH to ITALIAN using google transaltor tourism, client support and e-commerce domain TERM Determiner group of words we use to describe nouns ex) Possessives:my, your, his, her ... Quantifiers:(a) few, some, many... Numbers: one, two, three ... Articles subcategory that f..

NLP/Paper Review 2021.11.22

Sentence-BERT : Sentence Embedding using siamese BERT-Networks(SBERT) 리뷰

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks ABSTRACT siamese and triplet network 구조를 이용하여 pretrianed 된 BERT 모델로 semantically meaningful sentence mebeddings를 얻는 모델. 기존 Bert의 한계 •Computationally expensive EX) Sentence Similarity n = 10,000 n·(n−1)/2 = 10000*9999/2 •Bad sentence embeddings EX) Clustering & Semantic search - CLS token - average/max pooling of BERT output layer - w..

NLP/Paper Review 2021.10.05

[CHAPTER01] Natural Language Processing? 자연어 처리란?

Tensorflow 구글이 2015년에 공개한 머신러닝 오픈소스 라이브러리. > pip install tensorflow Keras 딥 러닝 프레임워크인 텐서플로우에 대한 추상화 된 API를 제공. 백엔드로 텐서플로우 사용하여 좀 더 쉽게 딥러닝을 사용할 수 있게 해준다. >pip install keras Scikit-learn 파이썬 머신러닝 라이브러리. 나이브 베이즈 분류, SVM 등 다양한 머신 러닝 모듈 불러올 수 있음. 데이터도 제공함. >pip install scikit-learn NLTK 자연어 처리를 위한 파이썬 패키지. >pip install nltk nltk 데이터 다운(iPython) import nltk nltk.download('~~~~') https://github.com/nlt..

[SentenceSimilarity] SentSim : Crosslingual Semantic Evaluation of Machine Translation 리뷰

FOCUS Mutilingual BERT 를 이용하면 reference sentence의 필요성이 없음 Sentence Semantic Similarity는 sentence embedding 과 word embedding을 linerly combine → word & compositional semantic METHODS WMD (Word Mover's Distance) → 문서 A와 문서 B의 비슷한 단어 간 words distance (=computing the semantic distance between two text documents by aligning semantically similar words and capturing the word traveling flow between the s..

NLP/Paper Review 2021.08.18

RoBERTa : A Robustly Optimized BERT Pretraining Approach 리뷰

hyperparameter 들을 하나하나 조정하기 힘들고 데이터의 비공개 단점을 개선한 기존 BERT기반 RoBERTa모델 제안 성능을 개선하기 위해 바꾼 것 160GB 데이터셋 (기존 BERT는 16GB) masking 을 Dynamic하게 → sequence 마다 masking pattern을 생성해줌 (기존에는 하나의 마스크만 생성) NSP은 제거하고 MLM만으로 pre-train + Full-sentence 형식으로 input > segment-pair (기존 방법) vs sentence-pair → sentence pair는 한 문장이 들어가는데, 긴 문장에 취약해서 segment-pair보다 성능이 더 낮게 나옴. > Doc-sentences (single document) vs Full-se..

NLP/Paper Review 2021.08.18

[SentenceSimilarity] RUSE : Regressor Using Sentence Embeddings for Automatic Machine Translation Evaluation 리뷰

Regression Model for MTE → segment-level MTE metric for to-English language pairs. → estimates the translation quality as real number from MT hypothesis t and a reference translation r. → 단순 문자 matching만 확인하는 character나 N-grams로 는 얻을 수 없는 global information을 universal sentence embeddings로 얻는다. Universal Sentence Embeddings InterSent supervised model + Stanford Natural Language Inference dataset으..

NLP/Paper Review 2021.08.12

How Multilingual is Multilingual BERT? 리뷰

→ Multilingual BERT의 작동과 성능에 대해서 평가 104개의 언어의 shared vocabulary로 학습. 기본 설정: multilingual 모델이라면, 서로 다른 언어라 하더라도 문장 pair 간 embedding structure는 유사해야한다. RESULT 1. Nearest Neighbor Accuracy language specific 한 token level information 의 영향을 크게 받기 때문에 적은 layer에서 정확도가 떨어지고, BERT는 마지막 layer에 masked language modeling을 수행하기 대문에 language specific information이 필요해서 성능이 감소한다. 2. Typological Features 같은 특징을 가..

NLP/Paper Review 2021.08.04

[SentenceSimilarity] MTE with BERT Regressor

Machine Translation Evaluation with BERT Regressor (BERT Regressor를 이용한 기계 번역 평가) MT hypothessis 문장과 reference translation 문장을 sentence-pair encoder에 같이 넣는다는 차이점 존재 기존 방법과 마찬가지로 pre-trained된 sentence embedding 사용하나 RUSE와 달리 pre-trained encoder를 fine-tuning 함 DATASET 5,360 instances (WMT-2015 and WMT2016) 90% training, 10% dev. 3,920 instances (WMT-2017) test set. RESULT 각 metric 점수와 DA human sco..

NLP/Paper Review 2021.08.04
728x90