Patrick's 데이터 세상

LSTM(Long Short-Term Memory) 본문

Deep Learning/NLP 이론

LSTM(Long Short-Term Memory)

patrick610 2022. 8. 22. 23:40
반응형
SMALL

 

 

👉🏻 장기의존성 문제

Vanilla RNN의 한계로 인해 RNN의 변형으로 앞서 본 BIdirectional RNNLSTM 개념이 등장했습니다.

Vanilla RNN의 한계

첫 번째 입력 x1의 정보량에서는 짙은 남색인데 시점이 지날수록 색이 흐려지는 것처럼 앞의 정보가 뒤로 충분히 전달되지 않는 문제가 발생합니다.
(비교적 짧은 sequence에서만 효과를 보임)

ex) "정부가 지난 8일부터 17일까지 이어진 집중호우 피해지역에 대한 사전조사 결과를 토대로 특별재난지역 선포기준 충족이 확실시되는 서울, 경기, 강원, 충남 지역 10개 지자체에 대해 대통령 재가를 받아 특별재난지역으로 우선 선포했다.
22일 중앙재난안전대책본부는 중앙합동조사 전 집중호우 피해의 신속한 수습·복구를 위한 정부 차원의 선제적 지원을 위해 서울 영등포·구관악구, 경기 성남시·광주시·양평군, 강원 횡성군, 충남 부여군·청양군 등 10개 지자체를 '특별재난지역'으로 우선 선포한다고 밝혔다. 시군구 지자체는 8곳, 읍면동 지자체는 2곳이다.
해당 특별재난지역 __"
예를 들어 위와 같은 뉴스 문장에서 서울, 경기, 강원 등 특별재난지역 10개를 예측하기 위해서 장소 정보를 RNN이 충분한 기억력을 갖지 못하면 예측하기 어려워집니다.


 

LSTM

👉🏻 개요

은닉층 메모리 셀에서 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고, 기억해야할 것을 정하는 개념입니다.


🚪 입력 게이트

현재 정보를 기억하기 위한 게이트
it : 현재 시점 t의 x값과 입력 게이트로 이어지는 가중치 Wxi를 곱한 값과 이전 시점 t-1의 은닉 상태가 입력 게이트로 이어지는 가중치 Wh i를 곱한 값을 더하여 시그로이드 함수를 지나게 됩니다.
gt : 현재 시점 t의 x값과 입력 게이트로 이어지는 가중치 Wxi 를 곱한 값과 이전 시점 t-1의 은닉 상태가 입력 게이트로 이어지는 가중치 Whg를 곱한 값을 더하여 하이퍼볼릭탄젠트 함수를 지나게 됩니다.


🚪 삭제 게이트

기억을 삭제하기 위한 게이트
현재 시점 t의 x값과 이전 시점 t-1의 은닉 상태가 시그모이드를 지나면 0~1 값이 나오게 됩니다.
0에 가까울수록 정보가 많이 삭제, 1에 가까울수록 정보를 온전히 기억으로 구분합니다.


🚪 장기 상태

Ct 셀 상태
삭제 게이트에서 일부 기억을 잃은 상태이고 입력 게이트에서 구한 it, gt 두 개의 값에 대해 원소별 곱(Element wise product, Hadamard product)을 진행합니다.
입력 게이트에서 선택된 기억을 삭제 게이트 결과값과 더합니다. 이 값이 현재 시점 t의 셀 상태이며, 다음 t+1 시점의 LSTM 셀로 넘겨집니다.
삭제 게이트는 이전 시점의 입력을 얼마나 반영할지를 의미, 입력 게이트는 현재 시점의 입력을 얼마나 반영할지를 의미합니다.


🚪 출력 게이트

현재 시점 t의 x값과 이전 시점 t-1의 은닉 상태가 시그모이드 함수를 지닌 값. 현재 시점 t의 은닉상태를 결정합니다.
은닉 상태는 장기 상태의 값이 하이퍼볼릭탄젠트 함수를 지나 -1 ~ 1 값이 됩니다.
해당 값은 출력 게이트의 값과 연산되면서, 값이 걸러지는 효과를 가집니다.

👉🏻 task

시계열 예측 모델에서 많이 사용


👉🏻 code

import torch.nn as nn

nn.LSTM(input_dim, hidden_size, batch_fisrt=True)




출처

https://arxiv.org/abs/1601.06733

 

Long Short-Term Memory-Networks for Machine Reading

In this paper we address the question of how to render sequence-level networks better at handling structured input. We propose a machine reading simulator which processes text incrementally from left to right and performs shallow reasoning with memory and

arxiv.org

 

https://wikidocs.net/60762

 

10-02 장단기 메모리(Long Short-Term Memory, LSTM)

바닐라 아이스크림이 가장 기본적인 맛을 가진 아이스크림인 것처럼, 앞서 배운 RNN을 가장 단순한 형태의 RNN이라고 하여 바닐라 RNN(Vanilla RNN)이라고 합니다. (…

wikidocs.net

 

 

반응형
LIST

'Deep Learning > NLP 이론' 카테고리의 다른 글

Attention Mechanism  (0) 2023.07.22
seq2seq(Sequence-to-Sequence)  (0) 2023.07.22
RNN(Recurrent Neural Network)  (0) 2022.08.21
Subword Tokenizer  (0) 2021.04.22
딥 러닝 학습 방법  (0) 2021.04.11
Comments