본문 바로가기
반응형

attention2

[Paper Review] Transformer - Attention is all you need 본 글은 카이스트 최윤재 교수님의 Programming for AI (AI504, Fall 2020), Class 9: Recurrent Neural Networks와 WikiDocs의 딥 러닝을 이용한 자연어 처리 입문을 바탕으로 정리한 글입니다. https://jalammar.github.io/illustrated-transformer/ 도 참고하여 작성하였습니다! Transformer 기존 seq2seq의 구조인 인코더, 디코더를 발전시킨 딥러닝 모델입니다. 가장 큰 차이점은 RNN을 사용하지 않고 Attention만으로 구현했다는 데 있습니다. Transformer를 한 단어로 표현하자면 Parallelization(병렬화)입니다. RNN의 순차적인 계산을 행렬곱으로 한 번에 처리합니다. 전체 과.. 2022. 3. 28.
[NLP] Attention Mechanism 본 글은 카이스트 최윤재 교수님의 Programming for AI (AI504, Fall 2020), Class 9: Recurrent Neural Networks와 WikiDocs의 딥 러닝을 이용한 자연어 처리 입문을 바탕으로 정리한 글입니다. Attention Mechanism (어텐션 메커니즘) 인코더에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, 디코더는 이 컨텍스트 벡터를 통해서 출력 시퀀스를 만들어낸 RNN에 기반한 seq2seq 모델에는 크게 두 가지 문제가 있습니다. 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니까 정보 손실이 발생합니다. RNN의 고질적인 문제인 기울기 소실(vanishing gradient) 문제가 존재합니다. 결국 이는.. 2022. 3. 28.
반응형