본문 바로가기

AI Naver boost camp/[Week 02] ML LifeCycle7

Seq2Seq: Sequence-to-Sequence 모델 Seq2Seq(Sequence-to-Sequence) 모델은 RNN(Recurrent Neural Network) 구조의 확장판으로,입력 시퀀스를 다른 형태의 출력 시퀀스로 변환하는 작업에 최적화된 모델입니다.이 모델은 특히 번역, 텍스트 요약, 대화 생성 등과 같은 자연어 처리 작업에서 중요한 역할을 합니다.Seq2Seq 모델이 필요한 이유기존 RNN은 1:1 관계에서 잘 동작하지만, 번역과 같이 1:다 또는 다:다 관계를 요구하는 작업에는 적합하지 않습니다.예를 들어, 영어 문장을 한국어로 번역할 때, 단어 대 단어의 매칭이 아니라 전체 문맥을 이해하고이를 바탕으로 번역해야 합니다. Seq2Seq 모델은 이러한 복잡한 작업을 해결하기 위해 고안되었습니다.사람이 번역하는 방식에서 영감을 받은 구조사람이.. 2024. 8. 18.
LSTM(Long Short-Term Memory Networks) LSTM(Long Short-Term Memory)은 RNN(Recurrent Neural Network)에서 발생하는long-term memory 문제를 해결하기 위해 제안된 모델입니다. RNN은 순차 데이터(Sequential Data)를 처리하는 데 강력하지만, 긴 시퀀스를 학습할 때 기울기 소실(Vanishing Gradient) 문제로 인해 초기 입력 정보가 사라지면서 long-range dependencies를 학습하기 어려워집니다.LSTM은 이러한 문제를 해결하기 위해 특별히 설계된 구조입니다.LSTM의 핵심 구조LSTM은 Cell State와 **게이트 구조(Gate Structure)**를 통해 정보를 효과적으로 전달하고 기억합니다.1. Cell StateLSTM의 가장 중요한 특징 중 .. 2024. 8. 18.
RNN - 순환신경망 이란?? Recurrent Neural Network (RNN) 이란?Recurrent Neural Network (RNN)은 시계열 데이터와같이 순차적으로 이루어진 데이터를 처리하는 데 적합한 신경망입니다.RNN의 기본 아이디어는 이전 시점의 정보를 기억하고 이를 현재 시점의 입력과 함께 사용하여 출력을 생성하는 것입니다.RNN의 기본 개념RNN은 다음과 같은 수식으로 표현됩니다:\( h_{t} = \text{tanh}(W_{hh} h_{t-1} + W_{xh} x_{t}) \) 여기서:\( h_{t} \) 는 현재 시점 t의 은닉 상태입니다.\( h_{t-1} \) 는 이전 시점의 은닉 상태입니다.\( W_{hh} \) 는 은닉 상태에서 은닉 상태로의 가중치입니다. \( W_{xh} \) ​는 입력에서 은닉 .. 2024. 8. 18.
활성화함수 (Activation funtion) 1. Sigmoid 함수수식 \begin{flalign*}   \sigma(z) = \frac{1}{1 + e^{-z}} &&\end{flalign*}  ​ 장점출력이 [0, 1] 범위로 제한되어 있습니다.단점Vanishing GradientSigmoid 함수의 기울기는 입력값이 크거나 작을 때 0에 가까워집니다. 이로 인해 역전파 과정에서 기울기가 0으로 변할 수 있습니다. 이는 다음 단계로의 그라디언트가 0이 되어 학습이 제대로 이루어지지 않는 문제를 일으킵니다. 수식으로 표현하면,\[ \frac{d\sigma(x)}{dx} = \sigma(x) \cdot (1 - \sigma(x)) \] 기울기가 0에 가까워질 수 있습니다.Non-zero-centered OutputSigmoid 함수의 출력값이 항.. 2024. 8. 16.