[Paper Review] QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Paper Review
작성자
Jina Kim
작성일
2021-03-19 10:07
조회
165
1. Topic

Convolution과 attention을 결합해 RNN을 대체할 수 있는 encoder를 제안하고, 이를 사용한 machine comprehension model인 QANet을 제안합니다.

2. Overview

Question answering을 위한 QANet 이전의 모델들은 context와 query를 임베딩하고 모델링하는데 RNN을 사용했는데, 이들은 RNN의 sequential한 본질에 의해 parallel한 연산이 불가능하고, long-term dependency 문제가 발생하는 한계를 가집니다. 논문에서는 이를 해결하기 위해 convolution과 attention을 결합해 local context와 global interaction 모두 잘 잡아낼 수 있는 encoder를 사용한 QANet을 제안합니다.

또한 개선된 학습 속도를 바탕으로, back-translation을 통해 더 많은 data를 생성하여 학습에 사용하였습니다. 그 결과 모델의 성능과 robustness가 향상되어 당시 single model 기준 SQuAD 1.0에 대해 sota성능을 기록했습니다.

3. 참고 논문

https://arxiv.org/abs/1804.09541

4. 발표 자료: 첨부파일

5. 발표 영상:  [업로드 예정]

 

 
전체 8

  • 2021-03-28 11:57

    본 세미나에서는 'QA-Net'을 다루었으며, RNN Based QA의 경우, 대표적 예시로 BiDAF 모델을 들 수 있으며 Long-term Dependency, Parallel 연산이 불가하다는 단점이 존재했기에 QA를 Convolution, Self Attention 등의 기법을 사용하여 극복하고자 하는 모델입니다. 이를 통해 Local Context와 Global Interaction을 모두 학습에 반영하고, 빠른 학습과 Inference가 가능하게 됩니다. Question과 Context를 Input으로 넣어 Start-End Token의 확률을 Return하는 구조를 갖고 있으며, Stacked Embedding Encoder Block이 Transformer와 매우 유사한 느낌이 있습니다. 위의 방법들로 학습 속도가 향상 되기에 더 많은 데이터로 학습이 가능해지는데, 이에 필요한 데이터를 Back Translation을 통한 Data Augmentation으로 달성했다고 하며, 성능과 Robustness가 모두 향상 했다고 합니다. 전체적인 모델이 다소 복잡해보이나 Encoder부분에서는 Parameter를 Share하고, 그 Encoder가 중복되어 사용되기에 실질적으로는 적당한 모델이라고 생각되며, QA에 대하여 좋은 발표 진행해주셔서 감사합니다.


  • 2021-04-13 02:20

    금일 세미나에는 석사과정 김지나 학생이 QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension 논문을 주제로 다루어 보았습니다. 해당 논문은 NLP의 Reading Comprehension task를 convolution과 attention을 결합한 local text정보를 활용한 encoder구조를 통해 이전 연구에서의 MC task 성능을 향상을 도모하였습니다. 해당 논문이 제안된 시점에서는 다수의 MC연구들이 RNN구조를 통해 sequential한 정보의 context 정보를 추출하고자 시도하였습니다. 하지만 해당 논문에서는 RNN 대신 CNN 과 Global self-attention을 사용했습니다. 해당 논문을 시점으로 self-attention 방법론은 많은 두각을 나타내서 이후 transformer 기반의 모델들로 이어지게 되는 것 같습니다. 지금시점에서의 NLP 분야에서는 transformer가 디폴트가 되어가고 있는데, 해당 논문으로부터 시작해서 self-attention의 시작점을 이해하기에 좋은 레퍼런스 논문이라고 생각됩니다. QA 혹은 MC task는 과거에도 많은 관심을 가졌기에 세미나를 따라가는데 무리는 없었지만, 그보다 세미나 준비자료가 시각적으로 풍부해서 더욱이 이해가 잘되었습니다. 좋은 컨텐츠로 세미나 시간을 채워준 발표자에게 감사합니다.


  • 2021-04-13 04:17

    본 세미나는 QA-net 에 대해 진행되었습니다. QA-net은 RNN을 CNN과 Attention으로 대체했다는 점에서 많은 파생효과를 갖는 모델입니다. 1) RNN자체가 갖는 본질적인 한계로 연속된 시퀀스에 대해 병렬로 처리가 힘들다는 점을 해결하고 2) 문맥의 지역적(context) 특성과 전반적인(global) 관계성을 학습할 수 있는 기회를 갖게 되었습니다. 더불어 back-translation을 통해 data augmentation을 진행하고, 늘어난 데이터에 대해서도 RNN에서 벗어남으로써 보다 빠르게 학습을 수행할 수 있었습니다. 실제 실험 결과에서도 SQuAD 1.0 에서의 sota, 타 모델과의 동일 성능 대비 적은 시간 소요, TrivialQA 데이터셋에서도 좋은 성능을 보였습니다. 대용량 랭귀지 모델들에 결국 sota는 갱신되었지만, CNN과 Attention을 조합해 언어모델에 대한 학습을 진행해 sota까지 이끌어내는 모습을 보며 전형성과 고정적인 생각에서 벗어나, 연산 자체의 역할과 본질에 집중하면서 다양한 접근방식을 시도해보는 것도 중요하다는 생각을 할 수 있었습니다. 좋은 발표 감사드립니다.


  • 2021-04-13 15:56

    오늘 세미나는 Question & Answering과 관련된 논문인 Combining Local Convolution with Global Self-Attention for Reading Comprehension에 대해 설명해 주셨습니다. QANet 이전의 논문들은 대부분 RNN 계열의 아키텍처를 활용하였는데 이 때문에 병렬처리, long-term dependency 문제가 발생하였습니다. 이를 해결하고자 QANet은 Encoder에 Covolution과 Attention을 결합한 아키텍처를 적용하여 local 정보 뿐만 아니라 global 정보를 취합하여 Q&A가 가능하도록 하였습니다. 또한 Back-translation을 통하여 Augmented 데이터를 생성하고 이를 학습에 활용함으로써 성능을 향상시켰습니다. 이 논문에서 가장 흥미로웠던 점은 Data Augmentation 테크닉이 Question & Answering 테스크에도 잘 적용된다는 점 입니다. 근래에 모델을 robutness하게 만들기 위하여 Data Augmentation 방법을 많이 활용하곤 하지만 Augmentation 방법론이 원본문장과 완전히 동일한 문장을 생성하지 못하기 때문에 디테일한 내용을 분석하는 테스크에는 잘 작동하지 않는 것이 일반적입니다. 해당 논문에서는 이를 해결하고자 character-level 2-gram score를 적용하여 보정하는 알고리즘을 개발하였는데 이부분이 매우 인상적이라고 생각합니다. 좋은 발표 감사합니다.


  • 2021-03-19 13:25

    금일 세미나 주제는 QANet입니다. QANet은 RNN의 한계점을 극복한 것으로, convolution을 통한 local 정보 확보, self-attention을 통한 global context 정보 확보, positional encoding을 통한 temporal 정보를 확보할 수 있다는 점이 이점입니다. Self-attention은 query to context / context to query matrix를 통해 구하게 됩니다. 그리고 3개의 stacked encoder로 answer에 해당하는 시작과 끝을 예측하였으며, 추가적으로 back translation을 통한 augmentation data의 활용으로 성능을 높였습니다. 본 세미나에서는 (1) 3개의 encoder간에 parameter share를 하는 것의 의미와, (2) start point prediction에는 1,2번 encoder concat, end point prediction에는 1,3번 encoder concat을 하는 의미에 대한 논의가 있었는데, 개인적으로 논문을 보면서 나름대로 내려본 결론은 다음과 같습니다.
    (1) transformer의 multi-head attention처럼 parallel하게 동작되는 것이 아니라 stacked encoder이기 때문에 shared parameter를 써도 선형적인 관점에서는 layer별 output의 큰 차이가 없을 것 같습니다. (e.g. w3(w2(w1(X))) = shared_w(X) = y). 단순히 layer를 쌓아서 feature 정보를 더 얻는다 정도로 생각을 하였습니다. 또한, 수식에서 start point를 예측할 때, 1,2번 encoder output concat 후 trainable parameter W1을 사용, 1,3번 concat 후 trainable parameter W2를 사용하고 있기 때문에 stacked encoder끼리는 parameter를 share해도 되지 않을까 생각합니다. 이 shared parameter 기반의 stacked encoder의 효과를 입증하기 위해서는, a. stacked / parallel encoder, b. shared / not shared 의 관점에서 실험이 진행되면 좋을 것 같습니다.
    (2) 1,2번 concat, 1,3번 concat을 하는 이유에 대해서는 명확하게는 잘 모르겠지만, start와 end를 찾는데 사용되는 W1, W2 parameter 이외에, 각각 다른 숫자값을 가지는 2번 encoder output, 3번 encoder output 사용해줌으로써 확률 계산 과정에 차이를 주기 위함이 아닐까 싶습니다.
    개인적으로 관심있는 분야라 발표 재미있게 들었습니다. 감사합니다.


  • 2021-03-20 11:43

    금일 세미나는 QA-specific 한 end-to-end model인 QANet 대한 소개로 진행되었습니다. QA task는 답변 시 참고하는 context 범위에 따라서 open-domain 과 closed-domain으로 나뉘고, 답변의 형태에 따라 abstractive와 extractive로도 분류가 가능하며, factoid query에 답할 수 있는가에 따라서도 구분됩니다. QANet은 closed-domain에서 extractive 특성을 가지면서 factiod query에 대한 답변은 불가한 모델입니다. QANet은 학습과 inference를 빠르게 수행하기 위한 목적에서 제안되었습니다. 기존 BiDAF 모델의 RNN을 대체하기 위해 convolution 연산, positional encoding, self attention을 사용합니다. 모델 내부적으로는 BiDAF의 RNN이 QA encoder로 대체되는 것을 확인할 수 있었습니다. 또한, Back translation을 통해 data augmentation도 적용하였습니다. 실제로 QANet은 BiDAF보다 5배 빠르게 train이 가능해지는 성과를 실험적으로 알 수 있었습니다. BERT 이전에 등장한 end-to-end 모델에 대해 배울 수 있었던 유익한 시간이었습니다. 좋은 발표 감사합니다.


  • 2021-03-22 14:36

    이번 세미나에서 발표된 QAnet은 Glove word vector와 character embedding의 max position으로 산출된 word vector의 addition으로 단어 벡터로 이루어져 있으며, transformer를 이용하여 sequence에 대한 self-attention을 활용한 encoder layer를 사용하였습니다. question에 대한 start token 과 end token에 확률 값을 목적함수를 설정하였으며, attention score function은 두벡터의 element-wise 곱과 각 vector의 linear projection의 합으로 산정하였습니다. back-translation에 대해서는 Question에 대한 부분은 진행하지 않고 context에 대한 부분에만 진행하여 data augmentation을 진행하였으며 augmentaion에 대한 shifted대한 문제는 augmentation 데이터의 비율로 성능을 튜닝하였습니다. 실험 성능지표는 F1-score으로 reference sentence에 대한 character unit의 실제/예측에 대한 recall/precision분류성능으로 산출하였습니다. 좋은 발표감사합니다.


  • 2021-03-22 21:07

    이번 세미나에서는 QAnet을 주제로 진행되었습니다. 발표자께서 본 모델에 대해 설명하기에 앞서 QA tesk에 대해서 간략하게 소개해주셨습니다. QAnet가 발표되기전 RNN의 두 가지 challenge는 1) long term dependency의 한계 2) parallel한 연산이 불가능하다는 것을 언급하며 이를 해결하고자 나온 모델임을 설명하였습니다. 또한 QAnet이 convolution을 통해 local context, self-attention을 통해 global interaction, positional encoding을 통해 temporal information을 모두 잘 반영하면서 infrerence가 가능한 모델임을 제안하고 있었습니다. 가장 흥미로웠던 부분은 model encoder layer에서 1번, 2번 encoder block의 output을 concat하여 start index probability를 예측하고 1번, 3번 encoder block의 output을 concat하여 end index probability를 예측하는 부분이었습니다. 이 부분에 대해서는 세미나시에도 논의가 있었는데 아직 명확한 이유는 잘 모르겠으나 1번 encoder block을 통해서 context와 question간의 전체적인 내용을 2번, 3번 encoder block을 통해 시작과 끝에 대한 정보를 학습시키고자 하였던 것이 아닐까 싶습니다. 결과도 굉장히 흥미로웠습니다. QAnet이 BiDAF보다 5배나 빠르면서 정확도가 높았으며, convolution을 사용하였을 때가 성능이 더 좋은 것으로 보아 저자가 제안하고자 했던 convolution을 통해 local text에 대한 정보를 학습하고자 했던게 성능에도 좋은 영향을 끼친 것 같습니다. BERT가 등장하면서 SOTA 자리는 내주었지만 굉장히 흥미로우면서 성능이 좋은 모델인 것 같습니다. 좋은 발표 감사합니다.


전체 129
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1223
관리자 2020.03.12 0 1223
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 449
관리자 2020.03.12 0 449
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 990
관리자 2020.03.12 0 990
126
[Paper Review] Deep GNNs (3)
Hyungseok Kim | 2021.04.16 | 추천 0 | 조회 33
Hyungseok Kim 2021.04.16 0 33
125
[Paper Review] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (3)
Takyoung Kim | 2021.04.13 | 추천 0 | 조회 45
Takyoung Kim 2021.04.13 0 45
124
[Paper Review] Uninformed Students: Student–Teacher Anomaly Detection with Discriminative Latent Embeddings (4)
Hyeyeon Kim | 2021.04.07 | 추천 0 | 조회 83
Hyeyeon Kim 2021.04.07 0 83
123
[paper Review] Contrastive Learning for Sequential Recommendation (4)
Jungho Lee | 2021.04.03 | 추천 0 | 조회 121
Jungho Lee 2021.04.03 0 121
122
[Paper Review] Deep Image Retrieval: Learning global representations for image search (5)
Kyoosung So | 2021.03.31 | 추천 0 | 조회 94
Kyoosung So 2021.03.31 0 94
121
[Paper Review] Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations (6)
Jounghee Kim | 2021.03.24 | 추천 0 | 조회 149
Jounghee Kim 2021.03.24 0 149
120
[Paper Review] Time Series Anomaly Detection with Multiresolution Ensemble Decoding (6)
Heejeong Choi | 2021.03.23 | 추천 0 | 조회 133
Heejeong Choi 2021.03.23 0 133
119
[Paper Review] QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension (8)
Jina Kim | 2021.03.19 | 추천 0 | 조회 165
Jina Kim 2021.03.19 0 165
118
[Paper Review] SOM-DST  : Efficient Dialogue State Tracking by Selectively Overwriting Memory (7)
Yukyung Lee | 2021.03.13 | 추천 0 | 조회 185
Yukyung Lee 2021.03.13 0 185
117
[Paper Review] A Simple Framework for Contrastive Learning of Visual Representations (10)
Donghwa Kim | 2021.03.10 | 추천 0 | 조회 255
Donghwa Kim 2021.03.10 0 255

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.