[Paper Review] Semantics-aware BERT for Language Understanding (SemBERT)

Paper Review
작성자
Myeongsup Kim
작성일
2020-07-25 01:36
조회
408
  1. Topic
  •  Semantic Role Labeling
  •  SemBERT
2. Overview
  • 본 세미나에서는 2020년 2월에 AAAI에서 발표된 [Semantics-aware BERT for Language Understanding] 논문에 대해 설명합니다. 해당 논문은 기존 Pre-trainded BERT에 Semantic Role Label 정보를 포함한 SemBERT 모델을 소개합니다. SemBERT는 Word Piece 단위의 BERT Encoding을 1D Convolution을 이용해 Word 단위의 Contextual Embedding으로 변환하고, 동시에 별도의 Pre-train 된 Semantic Role Labeler를 이용하여 Word 단위의 Semantic Embedding을 생성합니다. 이후 Contextual Embedding과 Semantic Embedding을 결합하여 Fine-tuning에 이용합니다. SemBERT는 Parameter의 큰 증가 없이 추가적인 외부 정보를 BERT에 제공하여 모델 성능을 향상시켰다는 점에서 의의가 있습니다.
3. 발표자료 및 발표영상
  • [1] 발표자료 (첨부파일 참조)
  • [2] 발표영상 [Link]
4. 참고 문헌
  • Zhang et al., 2020, Semantics-aware BERT for Language Understanding, AAAI [Link]
전체 12

  • 2020-07-25 15:11

    이번 세미나는 김명섭 석박과정의 BERT와 관련된 발표였습니다. 소개한 논문은 Bert가 Semantic한 정보를 학습할 수 있도록 제안한 SemBERT 모델입니다. 해당 논문에서 제안한 SemBERT는 Semantic Embedding, Contextual Embedding, Semantic Integration 단계를 통해 semantic한 정보를 학습할 수 있습니다. Semantic Embedding을 진행할 때 단어를 기준으로 토큰화를 진행하기 때문에, BERT의 WordPiece 와는 토큰화 방식이 다르게 됩니다. 이를 해결하기 위해 단어 단위로 concat 해주고 1d-Conv를 사용해 해당 embedding을 맞춰 주었습니다.

    모델의 각 프로세스를 이미지와 함께 상세히 설명해 주어 이해가 매우 잘 되었습니다. 발표 감사합니다.


  • 2020-07-25 18:12

    bert의 기본적인 개념과 필요한 부분을 잘 정리한 세미나 였습니다. 새로웠던 부분만 말하자면 Open IE의 문장의 구조를 파악하여 semantic 정보를 최대한 잘 학습하려는 의도 가 있었던 것 같습니다. 그런데 실험비교 가정과 실험 결과 성능이 소수점 2자리 이하의 성능의 차이가 random initialization으로 변동이 가능할 수 있다고 판단되며, 반복실험에 대한 결과로 확인할 수 없다는 점이 아쉬웠습니다. 이 이슈를 참고하면서 결과해석을 하면 좋을 것 같습니다.


  • 2020-07-30 10:38

    SemBERT는 BERT의 최종 레이어 output에 semantic role labeling 정보가 들어있는 semantic embedding을 integrate한 뒤 downstream task에 fine-tuning을 수행합니다. 이러한 방식으로 기존 모델들의 성능을 뛰어넘었습니다. 간단한 아이디어로 성능을 높인 좋은 논문이었습니다. 모델이 간단해서 SRL 모델 설명을 더 해주셨으면 좋았을 것 같습니다. 발표의 마지막에 이러한 방식으로 학습된 SemBERT가 semantic을 이해하는지에 대한 발표자의 의견을 들려주셨는데 논문의 실험 결과만으로는 해당 내용에 공감이 잘 되지 않았습니다. 실험 결과로 보여주셨으면 좋았을 것 같습니다.


  • 2020-08-03 13:46

    세미나의 핵심주제는 Semantic role labeling(의미역 결정) 정보를 BERT에 추가하는 방법과 관련된 연구입니다. 좀 더 상세하게 묘사하면 Open IE와 같은 Semantic role labeling Model로 부터 추출한 Semantic 정보를 BERT에 추가 하기 위하여 BiLSTM, 및 CNN 구조를 사용하여 모델의 일반적인 Classification 성능을 향상시킨 연구입니다. SemBERT처럼 BERT의 기본구조는 건들지 않고 BERT로 부터 나온 마지막 Hidden Vector에 외부 정보 추가하는 주제는 BERT가 나온 이후 2년간 계속 연구된 분야입니다. 대표적으로 ERINE 등이 있으며 논문에서 주장하는 성능은 항상 BERT보다 상위에 있는거 같습니다. 하지만 이러한 구조를 현실에서 사용하기는 쉽지 않아 보입니다. 왜냐하면 추가 정보를 어떻게 어디서 추출하는가에 따라 모델 성능이 크게 좌우 되기 때문입니다. SemBERT에서도 Semantic role Labeling을 뽑기 위하여 Pre-trained Semantic Role Labeler를 사용한다고 나와있지만 Pre-trained Semantic Role Labeler의 성능과 학습방법은 자세하게 다루지 않고 있는 거 같습니다. 따라서 실험의 신뢰성이 조금 떨어지는 느낌이 듭니다. 발표 감사합니다.


  • 2020-08-03 14:20

    최근 AAAI에서 발표된 SemBERT에 관한 세미나였습니다. 기본적으로 SemBERT 또한 BERT의 등장 이후로 연구가 활발히 진행되고 있는 기존 BERT + 추가적인 정보 로 이루어진 모델입니다. 처음으로 BERT가 semantic 정보를 제대로 반영하고 있지 못하다는 비판을 제안하고 본인들의 아이디어로 이를 증명하고 있습니다. 최초로 기존 방식의 한계를 언급하는 논문들은 보통 논리나 실험이 비약한 부분이 많은 것 같습니다. SemBERT 또한 그러한 논문들 중 하나라는 생각이 들었으며 언제나 그래왔듯이 후속 연구들이 이러한 부분을 빠르게 채워줄것이라 생각합니다. 개인적으로도 SemBERT에서 진행한 부분이 본인들의 의심을 온전히 해소할 수 있다고 생각하지는 않지만, BERT가 가진 한계는 잘 지적했다고 생각합니다. 앞으로 semantic 정보를 반영하는 여러 모델들이 기대되는 연구였습니다. 추가적으로 다른 사람의 발표 슬라이드를 사용하는 경우에는 출처를 밝혀주시면 좋을 것 같습니다.


  • 2020-08-03 16:33

    해당 논문은 BIO Tagging을 해결하기 위해 기존의 버트를 사용한 Contextual Embedding과 별도로 GRU를 사용하여 Semantic Embedding을 진행합니다. 각 Embedding의 Token을 Concat하여 Task를 수행하는 것으로, 기존의 모델들보다 Semantic 의미를 잘 반영한다고 주장합니다. 발표의 실험 결과를 볼 때, 단순 Metric score로 우수한 성능을 본다고 주장하기엔 애매하다고 생각했으며 실제로 예시를 Inference 하며 예를 들어줬으면 주관적인 평가로 더 좋았다고 생각합니다. 해당 논문의 Key point는 기존의 BERT 구조와 후에 Concat할 Semantic Role Labeling 부분인 것 같은데 해당 부분에서 저자가 주장하는 좀 더 공유했으면 좋았을 것이라 생각합니다. 발표 감사합니다.


  • 2020-08-03 21:35

    이번 세미나는 Semantics-aware BERT for Language Understanding을 주제로 진행되었습니다. 기존 BERT의 contextual embedding에 별도의 모델을 통해 semantic 정보를 추출하고 last hidden vector에 concat하여 성능을 향상시킨 연구라 이해하였습니다. semantic embedding이 word 단위로 이루어지므로 기존의 BERT embedding(sub word level) 을 word level contextual embedding으로 바꾸어 주었으며 이때 1D convolution 이용하였습니다. 결국 다음과 같은 모델의 아키텍쳐는 BERT model이 semantic 정보를 잘 반영하지 못한다고 결론짓기보다 언어를 더 깊게 이해할 수 있도록 추가적인 feature를 더해준 연구라 생각이 들었으며, benchmark dataset에서도 전반적으로 성능이 향상된것을 확인할 수 있었습니다. 최신 논문에 대해 리뷰해주셔서 감사합니다


  • 2020-08-04 15:13

    BERT의 semantic-awareness ability에 의문을 제기하고 이를 보완하기 위해 SemBERT라는 모델을 제안한 연구에 관한 발표였습니다. 개인적으로 BERT라는 모델을 볼 때마다 드는 생각이 Maksed Language Modeling과 Next Sentence Prediction이라는 간단한 pre-training task를 통해 어떻게 semantic & syntactic 정보를 학습할 수 있을까에 관한 부분인데, 저자들 역시 이러한 부분, 특히 semantic-awareness에 의문을 제기하고 이러한 모델을 제안했다는 생각이 듭니다. 한 가지 기억에 남는 부분은 word level feature와 sentence-piece level feature의 sequence length를 맞춰주기 위해 1d-convolution을 수행한 부분인데, 제가 진행했던 개인연구에서도 BERT를 통한 sequence labeling task 수행 시 이러한 문제에 봉착했던 적이 있었습니다. 그 당시 저는 단순히 sentence-piece level로 prediction을 수행했었는데, 본 연구에서 진행한 것과 같이 1d-convolution을 수행했으면 어땠을까 하는 생각도 들었습니다. 많은 분들이 의견 남겨주셨던 것처럼 discussion 파트가 조금 더 잘 설계되었으면 어땠을까 하는 생각도 들지만, 전반적으로 모델 설명이 직관적이고 발표 또한 깔끔해서 유익한 시간이 되었던 것 같습니다. 감사합니다.


  • 2020-08-04 21:46

    본 세미나시간에는 "SemBERT" 라는 주제로 NLI, question answering, MRC, semantic similarity 및 text classification을 포함한 광범위한 NLU task에서 기존 BERT대비 성능을 향상시킨 연구를 소개시켜주었습니다. 이과정에서 SRL(Semantic Role Labeling)에 대해서 소개하고 있으며, 기존 BERT가 semantic 정보를 제대로 반영하고 있지않으며, 이를 위해 본 논문에서는 해당 SRL을 통해서 그 부분을 해결하였다고 주장하고 있습니다. 첫 발표임에도 가독성 있는 세미나자료는 이해하기 수월했지만, 기존 세미나에서 계속해서 소개되는 기존 BERT에 초점을 가지기 보다는 SRL부분에 좀더 초점을 두고 준비해주었다면 하는 아쉬움은 남습니다. 앞으로도 다음 발표에서 재미있는 연구를 소개시켜주면 감사하겠습니다.


  • 2020-08-05 20:54

    우선 발표의 전체적인 흐름이 좋았습니다. 개인적으로 문제에 대해서 먼저 명확하게 설명해주는 발표를 좋아하는데 이번 발표에서는 발표하시는 논문이 지적한 문제에 대해 예시를 통해 설명해주셔서 잘 이해할 수 있었습니다. 결국 그 문제는 과연 모델이 semantic한 정보를 알고 있는 것인지에 대한 것 이었습니다. 이 문제에 대해 몇 가지 예시와 논문의 결과 보여주셔서 충분히 연구 주제로서의 가치가 있다는 것에 동의하였습니다. 논문에서는 이를 해결하기 위해 pre-trained된 semantic role labeler를 활용하여 최종적으로 이를 stack하는 형태의 vector를 사용하였습니다. 논문에서 주장한 것과 같이 완벽하게 그 문제를 해결했다고 생각이 들진 않았지만 어느정도 완화할 수 있었고, 추후 이에 대한 후속 연구가 기대되는 발표였습니다.


  • 2020-08-14 12:47

    금일 발표는 "Semantics-aware BERT for Language Understanding (SemBERT)"라는 주제로 진행되었습니다. 본 발표는 semantic role label 정보를 포함한 pretrained BERT인 SemBERT 모델을 중심으로 진행되었습니다. 최근 개인연구를 통해 semantic role label task를 다루고 있어 관심을 가지고 발표를 청취했습니다. SemBERT는 1D Convolution을 이용해 기존 BERT 임베딩을 contextual 임베딩으로 변환하고, pretrained semantic role labeler를 이용하여 semantic 임베딩을 생성한 후, 두 임베딩을 결합하여 fine tuning에 사용한 방법론입니다. 발표자가 해당 방법론의 발표를 준비하기까지 많은 prerequisite들을 공부한 것이 느껴져 좋았습니다.


  • 2020-08-14 12:53

    김명섭 석박통합과정의 세미나 발표를 들었습니다. 오늘 발표해주신 논문은 Natural Language Understanding 을 위해 BERT에 Semantic 정보를 더 잘 이해할 수 있도록 Semantic Role Labeling 모델을 추가로 붙여서 기존 Bert Embedding 과 함께 사용할 수 있도록 구성한 SemBERT 모델에 대한 논문을 소개해주셨습니다. 모델 구조와 학습 과정에 대한 그림을 쉽게 잘 설명해주셔서 이해하기 쉬웠습니다. 발표 잘 들었습니다. 감사합니다.


전체 129
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1222
관리자 2020.03.12 0 1222
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 446
관리자 2020.03.12 0 446
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 988
관리자 2020.03.12 0 988
76
[Paper Review] Madnet: Using a mad optimization for defending against adversarial attacks (20)
Kyoungchan Park | 2020.10.09 | 추천 0 | 조회 289
Kyoungchan Park 2020.10.09 0 289
75
[Paper Review] Model agnostic Few shot learning (18)
Joongmin Park | 2020.10.07 | 추천 0 | 조회 438
Joongmin Park 2020.10.07 0 438
74
[Paper Review] Syntax and Semantics in Language Model Representation (18)
Myeongsup Kim | 2020.09.29 | 추천 0 | 조회 403
Myeongsup Kim 2020.09.29 0 403
73
[Paper Review] Unsupervised Graph Anomaly Detection (19)
Hyungseok Kim | 2020.09.25 | 추천 0 | 조회 533
Hyungseok Kim 2020.09.25 0 533
72
[Paper Review] Evaluation Metrics for Time Series Anomaly Detection (19)
Gyuwon Cho | 2020.09.23 | 추천 0 | 조회 513
Gyuwon Cho 2020.09.23 0 513
71
[Paper Review]Graph based Anomaly Detection (19)
Hyeyeon Kim | 2020.09.17 | 추천 0 | 조회 612
Hyeyeon Kim 2020.09.17 0 612
70
[Paper Review] MultiSAGE - Spatial GCN With Contextual Embedding (19)
Jungho Lee | 2020.09.15 | 추천 0 | 조회 713
Jungho Lee 2020.09.15 0 713
69
[Paper Review] Spectral-based Graph Convolutional Networks(GCN) (18)
Jonghyun Choi | 2020.09.08 | 추천 0 | 조회 1670
Jonghyun Choi 2020.09.08 0 1670
68
[Paper Review] Text Augmentation (18)
Jounghee Kim | 2020.08.30 | 추천 0 | 조회 1107
Jounghee Kim 2020.08.30 0 1107
67
[Paper Review] Deep Semi-Supervised Anomaly Detection (10)
Heejeong Choi | 2020.08.29 | 추천 0 | 조회 1638
Heejeong Choi 2020.08.29 0 1638

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.