LSTM(Long Short-Term Memory Networks)

2024. 8. 18. 20:37·딥러닝 (Deep Learning)/[03] - 모델
728x90
반응형

LSTM(Long Short-Term Memory)은 RNN(Recurrent Neural Network)에서 발생하는

long-term memory 문제를 해결하기 위해 제안된 모델입니다.

 

RNN은 순차 데이터(Sequential Data)를 처리하는 데 강력하지만, 긴 시퀀스를 학습할 때 기울기 소실(Vanishing Gradient) 문제로 인해 초기 입력 정보가 사라지면서 long-range dependencies를 학습하기 어려워집니다.

LSTM은 이러한 문제를 해결하기 위해 특별히 설계된 구조입니다.


LSTM의 핵심 구조

LSTM은 Cell State와 **게이트 구조(Gate Structure)**를 통해 정보를 효과적으로 전달하고 기억합니다.

1. Cell State

LSTM의 가장 중요한 특징 중 하나는 Cell State입니다.

셀 상태는 시퀀스 내에서 정보를 손실 없이 유지할 수 있는 일종의 "경로"로, 정보가 계속해서 흐르도록 돕습니다.

셀 상태는 RNN에서 장기 정보를 유지하는 데 중요한 역할을 하며, long-term memory를 저장합니다.

 

2. 게이트 구조

LSTM은 정보를 적절히 추가하거나 제거하는 세 가지 게이트를 가지고 있습니다:

  • 입력 게이트 (Input Gate): 새로운 정보를 셀 상태에 얼마나 많이 저장할지를 결정합니다.
  • 포겟 게이트 (Forget Gate): 셀 상태에서 어떤 정보를 삭제할지를 결정합니다.
  • 출력 게이트 (Output Gate): 셀 상태에서 출력될 정보를 결정하고, 이를 바탕으로 hidden state가 업데이트됩니다.

 

3. LSTM의 기울기 소실 문제 해결

LSTM은 셀 상태와 게이트 구조를 통해 기울기 소실 문제를 크게 완화합니다.

특히, 셀 상태를 통해 기울기가 사라지지 않고 장기간 유지될 수 있도록 하여,

모델이 long-distance dependencies를 학습할 수 있도록 돕습니다.

예를 들어, forget gate가 1이고 input gate가 0인 경우, 셀 상태는 변하지 않고 이전의 정보를 유지할 수 있습니다.

이는 장기 메모리가 손실되지 않음을 의미합니다.

 

4. LSTM의 한계와 발전

LSTM은 기울기 소실 및 폭발 문제를 완전히 해결하지는 못하지만,

기존 RNN에 비해 훨씬 더 효율적인 방법을 제공합니다.

그러나 매우 긴 시퀀스의 경우, 여전히 일부 문제들이 존재할 수 있습니다.

이 문제를 보완하기 위해 GRU(Gated Recurrent Unit)와 같은 모델이 제안되었으며,

최근에는 Transformer 모델이 더 우수한 성능을 보여주고 있습니다.

결론

LSTM은 RNN의 한계를 극복하기 위해 설계된 강력한 모델로,

순차 데이터를 처리하는 다양한 작업에서 매우 유용하게 사용됩니다.

 

셀 상태와 게이트 구조 덕분에 LSTM은 long-range information을 더 잘 보존하며,

긴 시퀀스에서도 효율적으로 학습할 수 있습니다.

그러나 완벽한 솔루션은 아니며, 특정 작업에서는 다른 모델과의 조합이나 대체 모델이 필요할 수 있습니다.

728x90
반응형
저작자표시 비영리 변경금지 (새창열림)

'딥러닝 (Deep Learning) > [03] - 모델' 카테고리의 다른 글

Bottom-up Region Proposals 이란? [R-CNN]  (4) 2024.09.03
Seq2Seq: Sequence-to-Sequence 모델  (0) 2024.08.18
2-layer MLP (Multi Layer Perceptron)  (1) 2024.08.16
CNN 모델 만들기 [1편]  (1) 2023.01.04
다중 분류 Mnist  (1) 2023.01.03
'딥러닝 (Deep Learning)/[03] - 모델' 카테고리의 다른 글
  • Bottom-up Region Proposals 이란? [R-CNN]
  • Seq2Seq: Sequence-to-Sequence 모델
  • 2-layer MLP (Multi Layer Perceptron)
  • CNN 모델 만들기 [1편]
AI-BT
AI-BT
인공지능 (AI)과 블록체인에 관심있는 블로그
  • AI-BT
    AI-BLACK-TIGER
    AI-BT
  • 전체
    오늘
    어제
    • 분류 전체보기 (133)
      • 딥러닝 (Deep Learning) (81)
        • [01] - 딥러닝 이란? (5)
        • [02] - 데이터 (4)
        • [03] - 모델 (17)
        • [04] - 학습 및 최적화 (14)
        • [05] - 논문 리뷰 (17)
        • [06] - 평가 및 결과 분석 (4)
        • [07] - Serving (6)
        • [08] - 프로젝트 (14)
      • 머신러닝 & 딥러닝 개념 (0)
        • 머신러닝 (0)
        • 딥러닝 (0)
      • Quant 투자 (12)
        • 경제 (9)
        • 퀀트 알고리즘 & 전략 개요 (3)
      • 딥러닝 Math (4)
      • AI Naver boost camp (22)
        • 회고 (19)
        • CV 프로젝트 가이드 (3)
      • Python (1)
      • 개발 및 IT 용어 (6)
        • IT 용어 (2)
        • VS Code (1)
      • 코인 정보 (7)
  • 인기 글

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
AI-BT
LSTM(Long Short-Term Memory Networks)
상단으로

티스토리툴바