반응형 rnn5 [Paper Review] Transformer - Attention is all you need 본 글은 카이스트 최윤재 교수님의 Programming for AI (AI504, Fall 2020), Class 9: Recurrent Neural Networks와 WikiDocs의 딥 러닝을 이용한 자연어 처리 입문을 바탕으로 정리한 글입니다. https://jalammar.github.io/illustrated-transformer/ 도 참고하여 작성하였습니다! Transformer 기존 seq2seq의 구조인 인코더, 디코더를 발전시킨 딥러닝 모델입니다. 가장 큰 차이점은 RNN을 사용하지 않고 Attention만으로 구현했다는 데 있습니다. Transformer를 한 단어로 표현하자면 Parallelization(병렬화)입니다. RNN의 순차적인 계산을 행렬곱으로 한 번에 처리합니다. 전체 과.. 2022. 3. 28. [NLP] Attention Mechanism 본 글은 카이스트 최윤재 교수님의 Programming for AI (AI504, Fall 2020), Class 9: Recurrent Neural Networks와 WikiDocs의 딥 러닝을 이용한 자연어 처리 입문을 바탕으로 정리한 글입니다. Attention Mechanism (어텐션 메커니즘) 인코더에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, 디코더는 이 컨텍스트 벡터를 통해서 출력 시퀀스를 만들어낸 RNN에 기반한 seq2seq 모델에는 크게 두 가지 문제가 있습니다. 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니까 정보 손실이 발생합니다. RNN의 고질적인 문제인 기울기 소실(vanishing gradient) 문제가 존재합니다. 결국 이는.. 2022. 3. 28. [NLP] GRU (Gated Recurrent Unit) 본 글은 카이스트 최윤재 교수님의 Programming for AI (AI504, Fall 2020), Class 9: Recurrent Neural Networks와 WikiDocs의 딥 러닝을 이용한 자연어 처리 입문을 바탕으로 정리한 글입니다. GRU (Gated Recurrent Unit) 게이트 메커니즘이 적용된 RNN 프레임워크의 일종 기존 LSTM의 구조를 조금 더 간단하게 개선한 모델 LSTM의 장기 의존성 문제에 대한 해결책을 유지하면서, 은닉 상태를 업데이트하는 계산을 줄임 LSTM와 달리 출력 게이트가 없는 간단한 구조 마지막 출력값에 활성화 함수를 적용하지 않습니다. 성능 면에서는 LSTM과 비교해서 우월하다고 할 수 없지만 학습할 파라미터(가중치)가 더 적은 것이 장점 분설 결과가.. 2022. 3. 28. [NLP] LSTM (Long Short-Term Memory, 장단기 메모리) 본 글은 카이스트 최윤재 교수님의 Programming for AI (AI504, Fall 2020), Class 9: Recurrent Neural Networks와 WikiDocs의 딥 러닝을 이용한 자연어 처리 입문을 바탕으로 정리한 글입니다. 장단기 메모리 (Long Short-Term Memory, LSTM) 바닐라 RNN 이후 바닐라 RNN의 한계를 극복하기 위한 다양한 RNN의 변형이 나왔고, LSTM도 그중 하나입니다. LSTM은 RNN의 특별한 한 종류로, 긴 의존 기간을 필요로 하는 학습을 수행할 능력을 갖고 있습니다. Vanilla RNN의 한계 앞 챕터에서 바닐라 RNN은 출력 결과가 이전의 계산 결과에 의존한다는 것을 언급한 바 있습니다. 하지만 바닐라 RNN은 비교적 짧은 시퀀스.. 2022. 3. 28. [NLP] RNN (Recurrent Neural Network) 본 글은 카이스트 최윤재 교수님의 Programming for AI (AI504, Fall 2020), Class 9: Recurrent Neural Networks와 WikiDocs의 딥 러닝을 이용한 자연어 처리 입문를 바탕으로 정리한 글입니다. 순환 신경망 (Recurrent Neural Network, RNN) 입력과 출력을 시퀀스 단위로 처리하는 모델을 시퀀스 모델이라 하는데, RNN은 딥러닝에 있어 가장 기본적인 시퀀스 모델이고 자연어 처리(NLP)와 TimeSeries data에 활용됩니다. 용어는 비슷하지만 순환 신경망과 재귀 신경망(Recursive Neural Network)은 전혀 다른 개념입니다. 피드 포워드 신경망(Feed Forward Neural Network)은 은닉층에서 활.. 2022. 3. 28. 이전 1 다음 반응형