[2019.10.08 - 이정훈 석사과정] To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks

Paper Review
작성자
관리자
작성일
2020-03-12 11:21
조회
834
1. Topic

Sequential Transfer Learning in NLP

2. Overview

Transfer Learning 중에서도 Sequential Transfer Learning은 label이 존재하지 않는 다량의 데이터로 비지도학습 방식의 모델을 학습(Pretrain)한 후 label이 존재하는 소량의 데이터에 대해 지도학습 방식으로 모델을 이어서 학습(adaptation)하는 일련의 과정을 의미합니다. 일반적으로 자연어처리에서의 Pretrain은 2014년 Word2Vec(Mikolov et al.)의 등장 이후로 단어에 대한 학습을 주로 일컫는 말이었습니다. 대표적으로 Yoon kim의 2014년 논문인 Convolutional Neural Networks for Sentence Classification에서 다량의 unlabeled data에 대하여 Word2Vec으로 학습을 한 후 학습된 단어를 이용해 labeled data에 대한 classification을 수행했을 때 성능이 더욱 향상되었다는 연구가 있습니다. 그 후 skip-thought vector(Kiros et al.)에서 문장 단위의 pretrain이 제안되었고 ELMo(Peters et al.)와 BERT(Devlin et al.) 이후 현재까지 문맥에 맞게 단어(문장)에 대한 pretrain을 하는 방식이 주가 되고 있습니다.

본 논문에서는 이러한 pretrain이 완료된 후 label이 존재하는 데이터(downstream task)에 대해 adaptation하는 과정에 집중합니다. 크게 pretrain된 단어(문장) embedding을 이용해 feature-based approach를 진행하는 feature extraction과 embedding의 weight를 조절하며 추가 학습을 진행하는 fine-tuning의 두 가지로 adaptation을 나눠 진행하는데 이 과정을 크게 ELMo와 BERT 모델 두 가지에 대하여 실험을 진행합니다.  실험은 NER과 단일 문장 분류, 문장 유사도 측정의 세 가지 downstream task에 대해 진행합니다. 결과적으로 ELMO는 feature extraction 방식이, BERT는 fine-tuning 방식이 효과를 내는 것을 확인했습니다. 저자들은 feature extraction과 fine-tuning 모두 pretrain task와 downstream task가 유사해야 성능이 잘 나오며 특히 문장 유사도가 중요한 downstream task에 대해서는 ELMo의 pretrain 방식이 이와 달라 효과가 잘 나오지 않으며, BERT에서는 문장 쌍에 대한 유사도를 pretrain 과정에서 학습하기 때문에 유사도 측정에 유리하다고 말합니다.

3. 발표자료 및 발표영상

[1] 다운로드

[2] 발표영상


4. 참고문헌

[1] Matthew Peters, Sebastian Ruder and Noah A. Smith. To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks. arXiv preprint arXiv:1903.05987, 2019.

전체 0

전체 129
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1222
관리자 2020.03.12 0 1222
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 447
관리자 2020.03.12 0 447
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 989
관리자 2020.03.12 0 989
36
[Paper Review] Optimizing Instance Selection for Statistical Machine Translation with Feature Decay Algorithms (10)
관리자 | 2020.03.12 | 추천 0 | 조회 322
관리자 2020.03.12 0 322
35
[Paper Review] Adversarial Defense via Learning to Generate Diverse Attack (11)
관리자 | 2020.03.12 | 추천 0 | 조회 379
관리자 2020.03.12 0 379
34
[Paper Review] MixMatch : A Holistic Approach for Semi-Supervised Learning (11)
관리자 | 2020.03.12 | 추천 0 | 조회 2562
관리자 2020.03.12 0 2562
33
[Paper Review] Randomly Wired Neural Network For Image Recognition (9)
관리자 | 2020.03.12 | 추천 0 | 조회 236
관리자 2020.03.12 0 236
32
[Paper Review] Matching Networks for One Shot Learning (11)
관리자 | 2020.03.12 | 추천 0 | 조회 1886
관리자 2020.03.12 0 1886
31
[Paper Review] Addressing Semantic Drift in Question Generation For Semi-Supervised Question Answering (9)
관리자 | 2020.03.12 | 추천 0 | 조회 238
관리자 2020.03.12 0 238
30
[Paper Review] Large Scaled Graph Convolutional Networks (11)
관리자 | 2020.03.12 | 추천 0 | 조회 1119
관리자 2020.03.12 0 1119
29
[2019.12.13 - 양우식 석사과정] Visual Commonsense Reasoning & VilBERT (11)
관리자 | 2020.03.12 | 추천 0 | 조회 1046
관리자 2020.03.12 0 1046
28
[2019.12.06 - 최종현 석사과정] Graph-based Summarization (10)
관리자 | 2020.03.12 | 추천 0 | 조회 907
관리자 2020.03.12 0 907
27
[2019.12.04 - 이정호 석박통합과정] BERT4Rec : Sequential Recommendation with Bidirectional Encoder Representations from Transformer (11)
관리자 | 2020.03.12 | 추천 0 | 조회 1549
관리자 2020.03.12 0 1549

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.