2020 NeurIPS - 김명섭

NIPS
작성자
Myeongsup Kim
작성일
2021-01-14 01:43
조회
63
올해 NeurIPS는 온라인으로 개최되었습니다. 평년과 같았다면 많은 비용을 지불하고 참여했어야 할 학회를 편한 공간에서, 적은 비용으로 들을 수 있어 좋았습니다. 제가 NeurIPS에서 청취한 발표 중 인상깊었던 발표는 다음과 같습니다.

 

[Heavy-tailed Representations, Text Polarity Classification & Data Augmentation]

해당 논문은 Poster Session에서 발표되었습니다.

자연어의 의미를 수학적인 방법으로 표상하는 것은 매우 중요한 주제입니다. 특히, 최근에는 자연어의 의미를 표상하기 위해 대용량의 Corpus를 기반으로 Embedding을 학습하는 방법들이 많이 사용되고 있습니다. BERT와 같은 Language Model 또한 이러한 흐름에 따라가고 있으며, 다양한 Downstream Task에 적절하게 적용될 수 있는 좋은 Embedding을 찾는 것은 자연어 처리의 중요한 주제 중 하나입니다. 하지만 최근의 Language Model을 기반으로 한 Embedding 방법들조차 단어들의 분포가 Heavy-Tail한 경향을 갖고 있다는 점을 반영하지 못합니다. Heavy-Tail이란, 특정 Corpus에서 가장 빈번하게 등장하는 단어들이 절대 다수의 출현 빈도를 보이는 경향을 말합니다. 해당 논문에서는 분포의 Tail에 집중하는 Extreme Value Theory (EVT)를 기반으로 한 다변량 극단 값 분석 Framework를 제안합니다. 자연어에서 매우 높은 발생 빈도를 보이는 “the”, “a”와 같은 단어 토큰 보다는, 극단 값으로 간주되는 Tail 영역의 경우 발생 빈도가 낮지만, 중요한 정보들을 다수 포함하고 있을 가능성이 높지만, 발생하는 빈도가 낮기에 잘 학습되지 않았을 가능성이 높습니다. 해당 논문에서는 이러한 Extreme Input을 이용한 Classification 성능을 향상시키는 방법을 제안합니다.

해당 논문에서 제안하는 방법의 이름은 Learning a Heavy-tailed Representation (LHTR)으로, BERT와 같은 Pre-trained Embedding을 사용합니다. LHTR은 우선적으로 Encoding Function을 사용하여 User-Specified Heavy Tailed Target 분포에 가까운 방식으로 Latent Code Z로부터 Marginal Distribution이 도출되도록 학습합니다. 이후, 해당 분포를 기반으로 학습된 Multi-Layer Perceptron에서 Classification Loss가 작아지도록 학습을 수행합니다. LHTR은 기존의 AutoEncoding과 달리, Gaussian 분포가 아닌, Heavy-Tail분포로부터 Latent Code Z가 추출되도록 합니다. Bayes Classifier의 관점에서, 단어 분포 상의 Bulk에 해당하는 부분의 Classifier와 Extreme에 해당하는 부분의 Classifier는 다른 형태를 보이게 되고, LHTR은 Bulk와 Extreme에 대해 각각 Classifier를 학습하여 결과적으로, 두 개의 Classifier를 학습합니다. 두 개의 Classifier의 Weight를 함께 최적화하는 과정에서, Bulk 부분과, Extreme 부분에 효과적으로 작동하는 Latent Vector인 Embedding을 학습할 수 있게 됩니다. 또한 Latent Vector Z를 이용하여 Sequence를 생성하는 Transformer Decoder를 학습하고, 이를 이용하여 Data Augmentation을 수행하는 GENELIEX를 함께 적용하였습니다. GENELIEX를 이용해 Tail 부분에 해당하는 단어들에 대해 적절히 Augmentation을 수행할 수 있게 되고, 이 때의 Label 역시 적절하게 보존됨을 실험적으로 보였습니다. 결과적으로 감성 분석 Task에서 높은 성능을 보였으며, 높은 정확도로 Label을 보존하는 Augmentation을 수행하였습니다.
전체 0

전체 181
번호 제목 작성자 작성일 추천 조회
181
2020 NeurIPS - 김혜연
Hyeyeon Kim | 2021.01.18 | 추천 0 | 조회 113
Hyeyeon Kim 2021.01.18 0 113
180
2020 NeurIPS - 김형석
Hyungseok Kim | 2021.01.15 | 추천 0 | 조회 74
Hyungseok Kim 2021.01.15 0 74
179
2020 NeurIPS - 김명섭
Myeongsup Kim | 2021.01.14 | 추천 0 | 조회 63
Myeongsup Kim 2021.01.14 0 63
178
2020 대한산업공학회 추계학술대회 - 김명섭
Myeongsup Kim | 2021.01.14 | 추천 0 | 조회 52
Myeongsup Kim 2021.01.14 0 52
177
2020 NeurIPS - 이정호
Jungho Lee | 2021.01.06 | 추천 0 | 조회 93
Jungho Lee 2021.01.06 0 93
176
2020 NeurIPS - 이유경
Yukyung Lee | 2021.01.05 | 추천 0 | 조회 91
Yukyung Lee 2021.01.05 0 91
175
2020 NeurIPS - 최희정
Heejeong Choi | 2021.01.05 | 추천 0 | 조회 75
Heejeong Choi 2021.01.05 0 75
174
2020 대한산업공학회 춘계학술대회 - 이유경
Yukyung Lee | 2021.01.05 | 추천 0 | 조회 56
Yukyung Lee 2021.01.05 0 56
173
2020 대한산업공학회 추계학술대회 - 최희정
Heejeong Choi | 2021.01.05 | 추천 0 | 조회 55
Heejeong Choi 2021.01.05 0 55
172
2020 NeurIPS - 김탁영
Takyoung Kim | 2021.01.04 | 추천 0 | 조회 89
Takyoung Kim 2021.01.04 0 89

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.