[Paper Review] FreeLB: Enhanced Adversarial Training for Natural Language Understanding

작성자
Myeongsup Kim
작성일
2021-02-19 18:13
조회
188
1. Topic
  • FreeLB: Enhanced Adversarial Training for Natural Language Understanding
2. Overview

3. 발표자료 및 발표영상
  • 발표 자료 (첨부파일)
  • 발표 영상 (Link)
4. 참고 문헌
  • Zhu et al., FreeLB: Enhanced Adversarial Training for Natural Language Understanding, ICLR, 2020 (Link)
전체 10

  • 2021-04-01 20:58

    오늘 세미나는FreeLB: Enhanced Adversarial Training for Natural Language Understanding에 대한 내용으로 이루어졌습니다. 발표자께서 transformer가 강력한 이유는 context를 반영하여 서로 구분되게 embedding된 vector를 많이 얻었기 때문이라고 말씀하셨는데, 언어 모델이 정말 언어를 이해하는가에 대해 의구심을 가진 여러 연구들을 고려해봤을 때, 합당한 의견이라고 생각합니다. 이 외에도 최근 연구 동향을 두 갈래로 정리해주셔서 흐름을 파악하기에 매우 도움이 되었습니다. 오늘 소개해주신 FreeLB는 Adversarial training을 사용합니다. NLP에 Adversarial training을 사용하게 되면, generalization performance가 향상되는데, 그 이유는 adversarial example에 해당하는 단어가, vocab에 존재하지 않더라도, 문맥을 이용해 이와 유사한 embedding을 생성할 가능성이 있기 때문이라고 합니다. 문맥을 반영하여 같은 단어에 대해 여러 vector를 어떻게 학습하냐에 따라서 언어 모델의 성능이 개선될 수 있는 것 같습니다. 좋은 발표 감사합니다.


  • 2021-02-22 16:45

    금일 세미나에는 FreeLB: Enhanced Adversarial Training for Natural Language Understanding라는 논문을 주제로 다루어 보았습니다. 해당 세미나의 서두에는 최근 NLP에서의 연구동향을 발표자가 2개의 Track으로 나누어 정리를 해주었습니다. 모델의 크기를 키워 성능을 키우는 방향과 모델의 사이즈는 벌크업하지 않지만 이 가운데 smart하게 퍼포먼스를 향상시키는 방향으로 나누어서 생각해 볼 수 있었습니다. 전자에 해당하는 논문이 T5, GPT-3로 대표될 수 있으며, 후자의 경우는 SMART(ACL2020), PET 등 이 대표될 수 있을 것 같습니다. 실제 본 논문은 NLP 학습과정에서 FreeLB라 불리는 Adversarial Training방법론을 통해 기존 방법론 대비 invariant한 embedding space의 학습을 도모하였습니다. 이 과정에서의 Adversarial Training은 연구실 세미나에서도 여러 번 세미나시간에 소개되었던 내용이지만, 친절한 자료를 통해서 해당 논문에서 사용된 PGD의 variation인 FreeLB의 학습과정을 잘 전달해주었습니다. 세미나를 위해서 많은 내용을 준비한 것을 확인할 수 있었고, 논문에 대한 고민을 함께 공유할 수 있는 의미있는 시간이었다고 생각됩니다.


  • 2021-03-02 15:11

    NLP에 adversarial training (AT)를 적용하는 FreeLB에 관한 논문이었습니다. 많은 vision 연구들에서 Adversarial Attack/Defense/Training을 DNN을 이해하기위한 중요한 수단으로 사용합니다. 그리고 제가 알기로는 본 논문은 NLP에 이러한 연구 방향을 접목시킨 최초의 논문입니다. 개인적으로도 흥미가 있어 읽어봤었는데, 세미나를 통해 만나게 되어 반가운 마음이 컸습니다. 논문의 골자는 AT를 진행한 결과 vision domain과는 다르게 NLP domain에서는 모델의 일반화 성능이 높아진다는 것 입니다. 사실 이러한 주장을 펼치기 위해 저자들에게 유리한 선행 연구들만 참조한 것 같은 느낌이 들지만 vision domain에서 AT를 진행하는 경우에 따라 일반화 성능이 떨어지는 경우가 많기 때문에 별 문제 없이 논문으로 게재된 것 같습니다. 그리고 일반화 성능이 올라가는 이유는 input단에서 AT를 적용한 것이 아니라, 다시 말해 gradient를 이산적인 인풋까지 흘려보낸 것이 아니라, 연속적인 embedding space에 적용했기 때문이라고 생각합니다. 결국 AT가 data augmentation과 비슷한 작동을 하여 좋은 성능이 있었지 않나 싶습니다.


  • 2021-03-03 15:18

    이번세미나에서는 텍스트기반의 adversarial training을 하는 FreeLB: Enhanced Adversarial Training for Natural Language Understanding를 발표해주셨습니다. 근본적으로 텍스트와 이미지는 굉장히 다른 특성들이 존재합니다. 예를들어, 이미지는 데이터 변수들이 서로 상호작용이 되며, 텍스트는 그렇지 않습니다. 우리가 일반적으로 이미지에 gan이 잘 된다는 점은 이러한 이미지 데이터 특성들을 잘 고려한다고 생각합니다. 하지만 sequence 정보를 반영하는 (텍스트)데이터는 비전에서 우수한 성능을 가지는 방법론들이 잘 먹히지 않을때가 있습니다. 개인적으로 text에 Gan를 사용하는것에 대해서 비판적이고 부정적인 시각을 가지고 있으며 좀더 신뢰성있고 논리적으로 설득 시킬 필요가 있다고 생각됩니다. 좋은 발표 감사합니다.


  • 2021-03-07 17:42

    현재 언어 모델의 발전 양상은 크게 두 갈래로 나타나며, 하나는 깊고 큰 모델을 새롭게 고안하여 많은 데이터로 훈련하는 것이고(T5 / GPT-3), 다른 하나는 새로운 구조를 만드는 대신 다른 방안으로 성능 개선을 꾀하는 것입니다 (SMART / PET). 본 세미나에서 발표한 FreeLB는 후자에 속하며 Adversarial Training을 활용하여 언어 모델 내의 단어들의 Embedding Space를 더욱 더 Invariant하게 만드는 것이 목적입니다 (FreeLB는 Free Large Batch의 준말로서, Adversarial로 얻을 수 있는 추가적인 Embedding을 의미하는 것 같습니다). 따라서 Perturbation이 적용된 Embedding을 통해 진행된 Adversarial Training을 수행할 때, Vision Task에서는 Robustness가 상승하면서 일반화 성능이 감소하지만, 언어 모델에서는 두 요소가 모두 상승하게 됩니다. 이에 대하여 구체적인 장점은 Token이 Vocab에 존재하지 않더라도 Embedding을 생성할 수 있게 하며 '좋다', '싫다' 이외에 문맥을 이용하여 유사한 Embedding인 '조금 좋다'의 좋다를 Space에 나타낼 수 있게 할 수 있습니다. 발표에서는 나타나지 않았지만 논문 Conclusion에 기본적으로 AT는 SGD를 사용했을 때에 비하여 Overhead가 발생할 수 있다하여 Future Work로 제안하고 있기에 발표자께서 연구 주제로 활용할 수 있지 않을까 싶습니다. LM의 새로운 관점을 소개해주셔서 감사합니다.


  • 2021-03-09 16:04

    오늘 세미나는 Adversial Training을 언어모델에 적용한 FreeLB라는 모델을 소개해 주셨습니다. 기존 Adversarial Training 방법론들이 데이터의 입력, NLP에서는 Token에 적용하는 것과는 달리 해당 방법론은 Embedding에 Perturbation을 추가하여 Adversarial Training을 수행하였습니다. 그리고 Embedding Space에서 위치의 큰 변화 없이 Loss를 최대화하는 Perturbation을 생성하기 위해 PGD 구조를 변형한 방법을 제안하였습니다. 이 방법론은 Batch 단위로 K번의 Perturbation Update 동안 Weight에 대한 Gradient를 누적한 뒤, 평균하여 Update를 수행하는 것입니다. 이를 통하여 별도의 파라메터 증가 없이 성능을 향상시켰습니다. 개인적으로 NLP에 Adversial Training 방법론을 적용한 것을 처음 보았습니다. 게다가 이런 방법론이 일반화 성능을 향상 시킨다는 점에서 매우 흥미롭다고 생각합니다. 좋은 발표 감사합니다.


  • 2021-03-12 15:43

    금일 세미나는 NLP에서 adversarial training 기법을 적용한 FreeLB에 대한 모델의 소개로 진행되었습니다. 언어모델의 성능을 향상시키기 위해서는 많은 데이터로 깊은 모델을 학습시키거나 모델 크기는 유지하되 adversarial training 과 같은 기법을 추가하는 방법이 있습니다. 이미지에서는 데이터 자체에 perturbation을 주어 adversarial 학습을 진행하였으나, FreeLB는 임베딩 공간에 perturbation을 적용합니다. 이를 통해 보다 invariance 임베딩 공간을 만들어내도록 학습이 진행됩니다. Adversarial training을 텍스트에도 적용하는 방법에 대해 알게 되어 유익한 시간이었습니다. 또한 vision 분야에서 이 학습기법을 사용했을 때 일반화 성능이 감소하는 것과 달리, 이 기법을 적용하였을 때 모델의 일반화 성능이 오히려 향상되는 점도 인상 깊었습니다. 좋은 발표 감사합니다.


  • 2021-03-12 21:07

    오늘 세미나는 NLP task에 대해 adversarial training을 적용한 Free LB 모델에 대해 소개해주셨습니다. Adversarial training은 대부분 이미지 분야에 대해서 적용이 된다고 들었던 내용이라, 이번 세미나에서 NLP에 적용되는 것이 흥미로웠습니다. 우선 가장 기본적인 출발은 text augmentation을 통해 일반화 성능을 확보하는 것이 일반적인데 이것도 결국 embedding space에서 일반화 성능을 높이는 것이기 때문에, 데이터를 건드리는 것이 아니라 embedded vector에 대한 manipulation을 통해 일반화 성능을 어떻게 높일 수 있을지에 대한 고민입니다. 이를 위해 저자들은 embedding space에 대해 perturbation을 수행하는데, 이 때 vision task와 다르게 일반화 성능이 향상된다고 합니다. 이에 대해서는 아무래도 embedding space 상에서 각 latent vector들이 특정한 constraint 안에서 adversarial training이 적용되었기 때문이라고 생각합니다. 모든 부분을 다 이해한 것은 아니기 때문에, 발표자료 올려주시면 한번 더 보고 더욱 깊게 이해하고 싶은 논문입니다. 좋은 발표 감사합니다.


  • 2021-03-15 16:44

    작년에 언어 도메인에서의 continuous space에서 interpolation이 적용될 수 있는가에 대한 토론을 했던 것이 기억이 나는데, 이후 쭉 관심을 유지하면서 논문을 소개해주시는 모습이 인상깊었습니다. 소개해주시는 논문에서는 임베딩 공간에 perturbation을 적용하는 형태로 논의를 전개하는데 저도 마침 자연어 임베딩 공간에 self distillation을 적용하는 논문을 읽고 있었어서 좋은 참고자료가 되었습니다. 결국 해당 방법론도 파라미터 증가 없이 성능을 높이는 representation을 찾는 목적이기 때문에 어느정도 흐름을 같이 한다고 생각합니다. 제 지식 범위 내에서는 개인연구로 논제를 던져 주신 내용이 어느정도 합리적인 흐름이라고 생각했고 관련하여 또 이야기를 할 수 있으면 좋겠습니다. 발표 잘 들었습니다.


  • 2021-03-22 18:21

    금일 발표는 "FreeLB: Enhanced Adversarial Training for Natural Language Understanding"라는 주제로 진행되었습니다. 본 발표에서는 NLU에 adversarial training을 적용한 FreeLB가 소개되었습니다. 먼저 최근 다양한 분야에서 adversarial training이 적용되고 있는데 금일 발표에서 NLU에 해당 방법론이 적용된 것은 처음 접했기 때문에 흥미로웠습니다. 해당 방법론은 embedding 공간에 perturbation을 적용함으로써 data augmentation과 유사한 효과를 도출하여 NLU의 성능을 향상 시켰습니다. 본 발표를 청취하며 adversarial training의 효과를 알게 되었고 NLP와 유사한 특성을 보이는 정형 데이터에도 해당 부분이 효과가 있을 것으로 생각되어 이상치 탐지에도 adversarial training을 적용하면 좋을 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.


전체 129
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1222
관리자 2020.03.12 0 1222
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 447
관리자 2020.03.12 0 447
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 990
관리자 2020.03.12 0 990
126
[Paper Review] Deep GNNs (3)
Hyungseok Kim | 2021.04.16 | 추천 0 | 조회 33
Hyungseok Kim 2021.04.16 0 33
125
[Paper Review] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (3)
Takyoung Kim | 2021.04.13 | 추천 0 | 조회 45
Takyoung Kim 2021.04.13 0 45
124
[Paper Review] Uninformed Students: Student–Teacher Anomaly Detection with Discriminative Latent Embeddings (4)
Hyeyeon Kim | 2021.04.07 | 추천 0 | 조회 82
Hyeyeon Kim 2021.04.07 0 82
123
[paper Review] Contrastive Learning for Sequential Recommendation (4)
Jungho Lee | 2021.04.03 | 추천 0 | 조회 121
Jungho Lee 2021.04.03 0 121
122
[Paper Review] Deep Image Retrieval: Learning global representations for image search (5)
Kyoosung So | 2021.03.31 | 추천 0 | 조회 94
Kyoosung So 2021.03.31 0 94
121
[Paper Review] Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations (6)
Jounghee Kim | 2021.03.24 | 추천 0 | 조회 149
Jounghee Kim 2021.03.24 0 149
120
[Paper Review] Time Series Anomaly Detection with Multiresolution Ensemble Decoding (6)
Heejeong Choi | 2021.03.23 | 추천 0 | 조회 133
Heejeong Choi 2021.03.23 0 133
119
[Paper Review] QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension (8)
Jina Kim | 2021.03.19 | 추천 0 | 조회 164
Jina Kim 2021.03.19 0 164
118
[Paper Review] SOM-DST  : Efficient Dialogue State Tracking by Selectively Overwriting Memory (7)
Yukyung Lee | 2021.03.13 | 추천 0 | 조회 185
Yukyung Lee 2021.03.13 0 185
117
[Paper Review] A Simple Framework for Contrastive Learning of Visual Representations (10)
Donghwa Kim | 2021.03.10 | 추천 0 | 조회 255
Donghwa Kim 2021.03.10 0 255

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.