NLP 7

[CHAPTER01] Introduction 소개

1.1 지도 학습 레이블(정답)이 주어진 데이터셋으로 학습하는 방법 확률적 경사 하강법을 사용한 훈련 지도 학습에서는 손실 함수를 최소화하는 파라미터 값을 고르는 것이 목적 Gradient Descent (경사 하강법) -손실함수의 값이 임계점 아래로 내려갈 때까지 파라미터를 반복해서 업데이트(역전파) -데이터셋이 크면 메모리 제약이 생기고 계싼 비용이 높아 매우 느림 Stochastic Gradient Descent (확률적 경사 하강법) -전체 데이터셋에서 확률적으로 선택하여 손실함수 계산 -기존 경사하강법에 비해 빠른 속도로 오차 줄임 1.2 샘플과 타깃의 인코딩 one-hot encoding 문장이나 문서에 등장하는 단어에 상응하는 원소를 1로 설정하여 벡터를 얻는 방법 TF-IDF ( =TF *..

NLP/with PyTorch 2022.02.15

NLP with PyTorch

파이토치로 배우는 자연어 처리: 딥러닝을 이용한 자연어 처리 애플리케이션 구축 GitHub https://github.com/rickiepark/nlp-with-pytorch GitHub - rickiepark/nlp-with-pytorch: (한빛미디어, 2021)의 소스 코드를 (한빛미디어, 2021)의 소스 코드를 위한 저장소입니다. - GitHub - rickiepark/nlp-with-pytorch: (한빛미디어, 2021)의 소스 코드를 위한 저장 github.com 목표 1주에 1 챕터씩 끝내는 것을 목표로 하여 3월, 늦어도 4월 초 안에 정독 완료 시작일 22.02.03

NLP/with PyTorch 2022.02.03

[MTQE] Error Analysis of Statistical Machine Translation Output

목적 : machine translation system 의 error classification framework 제안하고 TC-STAR evaluation 으로 에러 분석 DATA European Parliament Plenary Sessions (EPPS) corpora for the English-Spanish language pair broadcast news for the Chinese-English language pair ERROR CLASSIFICATION Missing Words error 1.1 missing words essential for expressing the meaning → main words = nouns, verbs, (preposition) 1.2 missing w..

NLP/Paper Review 2021.11.22

[MTQE] Translation Quality and Error Recognition in Professional Neural Machine Translation Post-Editing

목적 attempt to model the cognitive processes in humans Terminology NMTPE : Neural Machine Translation Post-Editing 2.2.1 Automatic Error Annotation with Hjerson WER = Word Error Rate RPER = position-independent error rate in the reference (source) HPER = position-independent error rate in the hypothesis (target) inflectional error a word whose full form is marked as RPER/HPER error but the base f..

NLP/Paper Review 2021.11.22

[MTQE]Error detection and error correction for improving quality in MT and human post-editing 리뷰

목적 : Error detection & Correction Rules 정의하여 MT QE 도 하고, human post-editing 작업도 정확하고 수월하게 함. DATA 50 texts translated from ENGLISH to ITALIAN using google transaltor tourism, client support and e-commerce domain TERM Determiner group of words we use to describe nouns ex) Possessives:my, your, his, her ... Quantifiers:(a) few, some, many... Numbers: one, two, three ... Articles subcategory that f..

NLP/Paper Review 2021.11.22

[SentenceSimilarity] SentSim : Crosslingual Semantic Evaluation of Machine Translation 리뷰

FOCUS Mutilingual BERT 를 이용하면 reference sentence의 필요성이 없음 Sentence Semantic Similarity는 sentence embedding 과 word embedding을 linerly combine → word & compositional semantic METHODS WMD (Word Mover's Distance) → 문서 A와 문서 B의 비슷한 단어 간 words distance (=computing the semantic distance between two text documents by aligning semantically similar words and capturing the word traveling flow between the s..

NLP/Paper Review 2021.08.18

[SentenceSimilarity] RUSE : Regressor Using Sentence Embeddings for Automatic Machine Translation Evaluation 리뷰

Regression Model for MTE → segment-level MTE metric for to-English language pairs. → estimates the translation quality as real number from MT hypothesis t and a reference translation r. → 단순 문자 matching만 확인하는 character나 N-grams로 는 얻을 수 없는 global information을 universal sentence embeddings로 얻는다. Universal Sentence Embeddings InterSent supervised model + Stanford Natural Language Inference dataset으..

NLP/Paper Review 2021.08.12
728x90