본 강좌는 Attention에 대한 강좌입니다. 최근 딥러닝을 발전시키고 있는 가장 큰 변화의 축이라고 해도 과언이 아닌 주제이고, 심리학과 교육학, 신경과학 등을 넘나들 수 있는 주제이기도 한 재미있는 주제라고 할 수 있습니다. 본 강좌에서는 Attention에 대한 전반적인 개요를 설명해 드리고, 최근의 이슈이기 때문에 책으로 발간된 내용보다는 논문을 통한 학습이 효과적이라고 볼 수 있으므로 주요한 연구논문에 대해 해설을 해드립니다. 또한, Attention 개념에서 출발하는 Transformer, ELMO, BERT, GPT 등 다양한 주제에 대해서도 함께 다루도록 합니다.
[Attention]을 알아볼까요?
Attention은 최근의 AI, 딥러닝 분야에서 가장 각광을 받고 있는 주제 중의 하나이며, 신경망의 성능 향상을 위해 필요한 주요 메커니즘입니다.
Attention의 기본 아이디어는 decoder에서 출력 단어를 예측하는 매 timestamp마다 encoder에서 전체 입력 문장을 다시 참고하는 것입니다.
이때 모든 입력값들을 동일한 비중으로 참고하는 것이 아니라, decoder에서 현재 timestamp를 넘겨주면 encoder에서 softmax함수를 사용하여
decoder의 추론에 도움이 되는 정도를 수치화하여 전달하여 주고 이 정보를 decoder는 사용하게 됩니다.
이런 과정을 통해 출력 단어를 정확하게 예측할 확률이 높아지는 것입니다. 이러한 과정에 대해 본 강좌에서는 상세하게 다루게 될 것입니다.
왜 배워야 할까요?
Attention은 신경망들의 성능을 높이기 위한 메커니즘이며, 이제는 AI 분야에서 대세 모듈로서 사용되고 있는 트랜스포머의 기반이 되고 있습니다.
RNN(순환 신경망)에 기반한 seq2seq 모델에서 발견되는 문제로 인해 기계 번역 분야에서 입력 문장이 길면 번역 품질이 떨어지는 현상이 나타났습니다.
이를 위한 대안으로써 입력 시퀀스가 길어지면 출력 시퀀스의 정확도가 떨어지는 것을 보정해 주기 위해 등장한 기법이 바로 어텐션(attention)입니다.
기계 번역의 정확도를 향상시킬 수 있는 Attention에 대해 함께 학습해볼까요?
어떤 내용을 배우는지
살펴볼까요?
🔴 Attention의 정의에 대해 먼저 알아보고,
Bottom-Up vs. Top-Down Attention의 차이와 그 역할, 그리고 이들의 조화에 대해서 알아봅니다.
🔴 신경망에 처음으로 Attention 개념을 적용하기 시작한 연구들에 대해서 설명합니다.
Attention과 관련된 연구논문 중에 읽어보면 큰 도움이 될 만한 것들을 선별하여 몇몇 논문들을 설명합니다.
특히 가장 각광을 받고 있는 “Attention is All You Need, Transformers”을 자세히 살펴봅니다.
🔴 Attention 개념에서 출발한 ELMo와 BERT에 대해 살펴보고, GPT에 대해서도 자세히 살펴봅니다.
안녕하세요 :) <데이터사이언스> 분야의 클래스와 동영상을 추천하는 두런AI입니다. 데이터사이언스 분야에 관심이 있으시다면 저를 자주 마주치게 될 거 에요. 😁 저는 여러분들이 시청했던 동영상의 내용과 패턴을 학습합니다. 그리고 마침 딱! 필요했던 클래스를 만날 수 있도록 도와드립니다. “누구나 쉽게 배운다” 라는 두런의 미션을 위해 두런AI는 끊임없이 성장할 것입니다.