LSTM(Long Short-Term Memory Networks)

728x90

LSTM(Long Short-Term Memory)은 RNN(Recurrent Neural Network)에서 발생하는

long-term memory 문제를 해결하기 위해 제안된 모델입니다.

RNN은 순차 데이터(Sequential Data)를 처리하는 데 강력하지만, 긴 시퀀스를 학습할 때 기울기 소실(Vanishing Gradient) 문제로 인해 초기 입력 정보가 사라지면서 long-range dependencies를 학습하기 어려워집니다.

LSTM은 이러한 문제를 해결하기 위해 특별히 설계된 구조입니다.

LSTM의 핵심 구조

LSTM은 Cell State와 **게이트 구조(Gate Structure)**를 통해 정보를 효과적으로 전달하고 기억합니다.

1. Cell State

LSTM의 가장 중요한 특징 중 하나는 Cell State입니다.

셀 상태는 시퀀스 내에서 정보를 손실 없이 유지할 수 있는 일종의 "경로"로, 정보가 계속해서 흐르도록 돕습니다.

셀 상태는 RNN에서 장기 정보를 유지하는 데 중요한 역할을 하며, long-term memory를 저장합니다.

2. 게이트 구조

LSTM은 정보를 적절히 추가하거나 제거하는 세 가지 게이트를 가지고 있습니다:

입력 게이트 (Input Gate): 새로운 정보를 셀 상태에 얼마나 많이 저장할지를 결정합니다.
포겟 게이트 (Forget Gate): 셀 상태에서 어떤 정보를 삭제할지를 결정합니다.
출력 게이트 (Output Gate): 셀 상태에서 출력될 정보를 결정하고, 이를 바탕으로 hidden state가 업데이트됩니다.

3. LSTM의 기울기 소실 문제 해결

LSTM은 셀 상태와 게이트 구조를 통해 기울기 소실 문제를 크게 완화합니다.

특히, 셀 상태를 통해 기울기가 사라지지 않고 장기간 유지될 수 있도록 하여,

모델이 long-distance dependencies를 학습할 수 있도록 돕습니다.

예를 들어, forget gate가 1이고 input gate가 0인 경우, 셀 상태는 변하지 않고 이전의 정보를 유지할 수 있습니다.

이는 장기 메모리가 손실되지 않음을 의미합니다.

4. LSTM의 한계와 발전

LSTM은 기울기 소실 및 폭발 문제를 완전히 해결하지는 못하지만,

기존 RNN에 비해 훨씬 더 효율적인 방법을 제공합니다.

그러나 매우 긴 시퀀스의 경우, 여전히 일부 문제들이 존재할 수 있습니다.

이 문제를 보완하기 위해 GRU(Gated Recurrent Unit)와 같은 모델이 제안되었으며,

최근에는 Transformer 모델이 더 우수한 성능을 보여주고 있습니다.

결론

LSTM은 RNN의 한계를 극복하기 위해 설계된 강력한 모델로,

순차 데이터를 처리하는 다양한 작업에서 매우 유용하게 사용됩니다.

셀 상태와 게이트 구조 덕분에 LSTM은 long-range information을 더 잘 보존하며,

긴 시퀀스에서도 효율적으로 학습할 수 있습니다.

그러나 완벽한 솔루션은 아니며, 특정 작업에서는 다른 모델과의 조합이나 대체 모델이 필요할 수 있습니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'딥러닝 (Deep Learning) > [03] - 모델' 카테고리의 다른 글

Bottom-up Region Proposals 이란? [R-CNN] (4)	2024.09.03
Seq2Seq: Sequence-to-Sequence 모델 (0)	2024.08.18
2-layer MLP (Multi Layer Perceptron) (1)	2024.08.16
CNN 모델 만들기 [1편] (1)	2023.01.04
다중 분류 Mnist (1)	2023.01.03

LSTM의 핵심 구조

1. Cell State

2. 게이트 구조

3. LSTM의 기울기 소실 문제 해결

4. LSTM의 한계와 발전

결론

'딥러닝 (Deep Learning) > [03] - 모델' 카테고리의 다른 글

티스토리툴바