본문 바로가기
AI Naver boost camp/[Week 02] ML LifeCycle

LSTM(Long Short-Term Memory Networks)

by AI-BT 2024. 8. 18.
728x90
반응형

LSTM(Long Short-Term Memory)은 RNN(Recurrent Neural Network)에서 발생하는

long-term memory 문제를 해결하기 위해 제안된 모델입니다.

 

RNN은 순차 데이터(Sequential Data)를 처리하는 데 강력하지만, 긴 시퀀스를 학습할 때 기울기 소실(Vanishing Gradient) 문제로 인해 초기 입력 정보가 사라지면서 long-range dependencies를 학습하기 어려워집니다.

LSTM은 이러한 문제를 해결하기 위해 특별히 설계된 구조입니다.


LSTM의 핵심 구조

LSTM은 Cell State와 **게이트 구조(Gate Structure)**를 통해 정보를 효과적으로 전달하고 기억합니다.

1. Cell State

LSTM의 가장 중요한 특징 중 하나는 Cell State입니다.

셀 상태는 시퀀스 내에서 정보를 손실 없이 유지할 수 있는 일종의 "경로"로, 정보가 계속해서 흐르도록 돕습니다.

셀 상태는 RNN에서 장기 정보를 유지하는 데 중요한 역할을 하며, long-term memory를 저장합니다.

 

2. 게이트 구조

LSTM은 정보를 적절히 추가하거나 제거하는 세 가지 게이트를 가지고 있습니다:

  • 입력 게이트 (Input Gate): 새로운 정보를 셀 상태에 얼마나 많이 저장할지를 결정합니다.
  • 포겟 게이트 (Forget Gate): 셀 상태에서 어떤 정보를 삭제할지를 결정합니다.
  • 출력 게이트 (Output Gate): 셀 상태에서 출력될 정보를 결정하고, 이를 바탕으로 hidden state가 업데이트됩니다.

 

3. LSTM의 기울기 소실 문제 해결

LSTM은 셀 상태와 게이트 구조를 통해 기울기 소실 문제를 크게 완화합니다.

특히, 셀 상태를 통해 기울기가 사라지지 않고 장기간 유지될 수 있도록 하여,

모델이 long-distance dependencies를 학습할 수 있도록 돕습니다.

예를 들어, forget gate가 1이고 input gate가 0인 경우, 셀 상태는 변하지 않고 이전의 정보를 유지할 수 있습니다.

이는 장기 메모리가 손실되지 않음을 의미합니다.

 

4. LSTM의 한계와 발전

LSTM은 기울기 소실 및 폭발 문제를 완전히 해결하지는 못하지만,

기존 RNN에 비해 훨씬 더 효율적인 방법을 제공합니다.

그러나 매우 긴 시퀀스의 경우, 여전히 일부 문제들이 존재할 수 있습니다.

이 문제를 보완하기 위해 GRU(Gated Recurrent Unit)와 같은 모델이 제안되었으며,

최근에는 Transformer 모델이 더 우수한 성능을 보여주고 있습니다.

결론

LSTM은 RNN의 한계를 극복하기 위해 설계된 강력한 모델로,

순차 데이터를 처리하는 다양한 작업에서 매우 유용하게 사용됩니다.

 

셀 상태와 게이트 구조 덕분에 LSTM은 long-range information을 더 잘 보존하며,

긴 시퀀스에서도 효율적으로 학습할 수 있습니다.

그러나 완벽한 솔루션은 아니며, 특정 작업에서는 다른 모델과의 조합이나 대체 모델이 필요할 수 있습니다.

728x90
반응형

댓글