NLP/with PyTorch

[CHAPTER01] Introduction 소개

joannekim0420 2022. 2. 15. 15:48
728x90

1.1 지도 학습

레이블(정답)이 주어진 데이터셋으로 학습하는 방법

 

확률적 경사 하강법을 사용한 훈련

지도 학습에서는 손실 함수를 최소화하는 파라미터 값을 고르는 것이 목적

 

Gradient Descent (경사 하강법)

-손실함수의 값이 임계점 아래로 내려갈 때까지 파라미터를 반복해서 업데이트(역전파)

-데이터셋이 크면 메모리 제약이 생기고 계싼 비용이 높아 매우 느림

 

Stochastic Gradient Descent (확률적 경사 하강법)

-전체 데이터셋에서 확률적으로 선택하여 손실함수 계산

-기존 경사하강법에 비해 빠른 속도로 오차 줄임

 

1.2 샘플과 타깃의 인코딩

one-hot encoding

문장이나 문서에 등장하는 단어에 상응하는 원소를 1로 설정하여 벡터를 얻는 방법

 

TF-IDF ( =TF * IDF)

TF - 등장 횟수에 비례하여 단어에 가중치 부여

IDF(inverse document frequency) - 흔한 토큰의 점수를 낮추고 드문 토큰의 점수를 높여, 희귀한 단어의 문서 특징 잘 나타냄

 

Language Modeling

이전 단어를 입력하면 다음 단어를 예측하는 몯델

 

'NLP > with PyTorch' 카테고리의 다른 글

[CHAPTER3] Supervised Learning  (0) 2022.02.16
[CHAPTER03] perceptron, activation function, loss function  (0) 2022.02.15
NLP with PyTorch  (0) 2022.02.03