NLP 22

[LLM paper review] LLaMA : Open and Efficient Foundation Language Models 리뷰

제가 생각한 핵심만 요약한 글입니다. 더 자세한 실험 결과나 레퍼런스는 paper를 참고 ※ Contribuition 1. Trained on only open source data 2. Smaller models trained longer with bigger tokens 3. Inference capable on a single GPU 1. INTRODUCTION 요약 근래에는 단순하게 more parameters will elad to better performance. 로 승부를 보는 추세였는데, (Training Compute-Optimal Large Language Models) 논문에 따르면 for a given budget , the best performances are not achie..

NLP 2024.01.22

[NLP / paper review ] Prefix Tuning and Prompt Tuning 차이

Prefix Tuning / Prompt Tuning 모두 2021년에 각각 Stanford University 와 Google research 에서 발표 하였다. 논문의 모든 내용을 포함하고 있지 않으며, 전체적인 내용의 이해를 위한 정리본이다. ■ Prefix-Tuning: Optimizing Continuous Prompts for Generation A. Prior Methods Fine-tuning updates all Transformer parameters and requires storing a full model copy for each task. 각 task에 따라 모델의 모든 파라미터를 update한다 Adapter Tuning inserts additional task-specifi..

NLP/Paper Review 2023.04.15

[Sentence Embedding] SimCSE : Simple Contrastive Learning of Sentene Embeddings 리뷰

positive pair : 원본 sentence 에서 data augmented 한 비슷한 의미인 sentence과의 pair (x, x+)로 나타냄. supervised learning 에서는 NLI 데이터의 entailment 문장과 원 문장의 pair를 뜻함. negative pair : 원본 sentence 와 같은 batch 내 의미적으로 다른 sentence들의 pair. supervised learning 에서는 NLI 데이터의 contraction 문장과 원 문장의 pair를 뜻함. Isotropy: 벡터가 고르게 분포되어 있는 것 Anisotropy: 벡터가 고르지 않게 분포 되어 있는 것 (더 자세한 설명은 아래 uniformity와 함께) ※ Point Unsupervised Lea..

NLP/Paper Review 2022.10.28

[CHAPTER3] Supervised Learning

1. Dataset - Dataset은 보통 Training Set, Validation(Dev) Set, Test Set 을 70/15/15로 랜덤하게 나눈다. - 데이터 개수가 부족하면 k-fold cross validation을 사용하는데, 이는 over-fit이 될 수 있다. 2. Model 3. Loss Function -손실의 그레디언트는 모델 파라미터를 얼마나 많이 바꿔야 하는지는 나타냄 4. Optimizer 모델이 예측하고, 손실함수가 예측과 타깃 사이의 오차를 측정하면, 옵티마이저가 모델의 가중치를 업데이트 학습률 : 오차 신호가 가중치 업데이트에 영향을 얼마나 미치는지 조절 - Adam / Adagrad - optim.Adam(params=perceptron.parameters(), ..

NLP/with PyTorch 2022.02.16

[CHAPTER01] Introduction 소개

1.1 지도 학습 레이블(정답)이 주어진 데이터셋으로 학습하는 방법 확률적 경사 하강법을 사용한 훈련 지도 학습에서는 손실 함수를 최소화하는 파라미터 값을 고르는 것이 목적 Gradient Descent (경사 하강법) -손실함수의 값이 임계점 아래로 내려갈 때까지 파라미터를 반복해서 업데이트(역전파) -데이터셋이 크면 메모리 제약이 생기고 계싼 비용이 높아 매우 느림 Stochastic Gradient Descent (확률적 경사 하강법) -전체 데이터셋에서 확률적으로 선택하여 손실함수 계산 -기존 경사하강법에 비해 빠른 속도로 오차 줄임 1.2 샘플과 타깃의 인코딩 one-hot encoding 문장이나 문서에 등장하는 단어에 상응하는 원소를 1로 설정하여 벡터를 얻는 방법 TF-IDF ( =TF *..

NLP/with PyTorch 2022.02.15

[CHAPTER03] perceptron, activation function, loss function

Perceptron : 가장 간단한 신경망으로 생물학적 뉴런을 대략 본떠 만듦. y = f(wx+b) f - 활성화 함수(비선형 함수) Activation Function 활성화 함수 1. Sigmoid - torch.sigmoid(x) - 매우 빠르게 포화되어 극단적인 출력을 만듦 -> vanishing gradient problem, exploding gradient problem -> 출력을 확률로 압축하는 출력층에서만 사용 2. Hyperbolic tangent - torch.tanh(x) - 시그모이드 함수의 변종 3. ReLU(Rectified Linear Unit) - torch.nn.ReLU() - 음수를 제거해 gradient vanishing 해결 - 시간이 지나서 신경망의 특정 출력이..

NLP/with PyTorch 2022.02.15

NLP with PyTorch

파이토치로 배우는 자연어 처리: 딥러닝을 이용한 자연어 처리 애플리케이션 구축 GitHub https://github.com/rickiepark/nlp-with-pytorch GitHub - rickiepark/nlp-with-pytorch: (한빛미디어, 2021)의 소스 코드를 (한빛미디어, 2021)의 소스 코드를 위한 저장소입니다. - GitHub - rickiepark/nlp-with-pytorch: (한빛미디어, 2021)의 소스 코드를 위한 저장 github.com 목표 1주에 1 챕터씩 끝내는 것을 목표로 하여 3월, 늦어도 4월 초 안에 정독 완료 시작일 22.02.03

NLP/with PyTorch 2022.02.03

[MTQE]Machine Translation Error Classification 논문 요약 정리

논문 정리 요약본 Error Analysis of Statistical Machine Learning Translation Output Translation Quality and Error Recognition in professional neural machine translation post-editing Error detection and error correction for improving quality in machine translation and human post-editing 목적 : MT 오류 유형 분석 1.Error Analysis of Statistical Machine Learning Translation Output [세부 내용 정리]https://joannekim0420.ti..

NLP/Paper Review 2021.11.24

[MTQE] Error Analysis of Statistical Machine Translation Output

목적 : machine translation system 의 error classification framework 제안하고 TC-STAR evaluation 으로 에러 분석 DATA European Parliament Plenary Sessions (EPPS) corpora for the English-Spanish language pair broadcast news for the Chinese-English language pair ERROR CLASSIFICATION Missing Words error 1.1 missing words essential for expressing the meaning → main words = nouns, verbs, (preposition) 1.2 missing w..

NLP/Paper Review 2021.11.22

[MTQE] Translation Quality and Error Recognition in Professional Neural Machine Translation Post-Editing

목적 attempt to model the cognitive processes in humans Terminology NMTPE : Neural Machine Translation Post-Editing 2.2.1 Automatic Error Annotation with Hjerson WER = Word Error Rate RPER = position-independent error rate in the reference (source) HPER = position-independent error rate in the hypothesis (target) inflectional error a word whose full form is marked as RPER/HPER error but the base f..

NLP/Paper Review 2021.11.22
728x90