Patrick's 데이터 세상

사내 교육 5주차 - 모델 변천사 본문

Deep Learning/NLP 강의

사내 교육 5주차 - 모델 변천사

patrick610 2023. 3. 27. 22:56
반응형
SMALL

 

 

 

RNN Recurrent Neural Network

 

 

 

LSTM Long Short Term Memory

 

RNN의 장기 의존성을 보완하기 위해 나온 개념

 

 

Ct : t시점의 셀 상태

RNN과 비교하여 긴 시퀀스 입력을 처리하는데 탁월

 

 

입력 게이트

현재 정보를 기억하기 위한 게이트

 

삭제 게이트

기억을 삭제하기 위한 게이트

 

출력 게이트

현재 시점 t의 x값과 이전 시점 t-1의 은닉 상태가 시그모이드 함수를 지닌 값.

현재 시점 t의 은닉 상태 결정.

 

 

 

Seq2Seq

번역기에서 대표적으로 사용되는 모델.

 

 

 

한계점

 

 

Attention

디코더가 고정된 길이의 문맥 벡터를 참고하는 것이 아닌 매번 소스 문장에서의 출력, 각각의 hidden state 값 전부를 입력하는 아키텍쳐.

 

Dot-Product Attention

1) 어텐션 스코어(Attention Score)를 구한다.

어텐션 스코어 함수

2) 소프트맥스(softmax) 함수를 통해 어텐션 분포(Attention Distribution)를 구한다.

3) 각 인코더의 어텐션 가중치와 은닉 상태를 가중합하여 어텐션 값(Attention Value)을 구한다.

4) 어텐션 값과 디코더의 t 시점의 은닉 상태를 연결한다.

5) 출력층 연산의 입력이 되는 값을 계산하여 출력층의 입력으로 사용

 

 

Transformer

 

Positional Embedding

Input Embedding Matrix와 같은 차원을 가지고 위치 정보를 갖는 별도 Positional Embedding을 Element wise로 더함으로써 각각 단어 순서를 네트워크가 알도록 함

 

Multi-head Attention

Encoder의 Attention은 Self-Attention으로 각각 단어 연관성을 파악함.

Input Embedding Matrix의 각 단어들은 서로에 대해 Attention Score를 구하고, 어떤 단어와 높은 연관성을 갖는지 파악.

 

Residual Learning

이미지 분류 네트워크 ResNet에서 사용.

특정 Layer를 건너 뛰어 복사가 된 값을 그대로 넣는 기법.

전체 네트워크는 기존 정보를 입력 받으면서 추가적으로 잔여 부분만 학습.

 

 

Transformer → BERT, GPT

반응형
LIST
Comments