[Paper Review] Text Summarization with Pretrained Encoder

Paper Review
작성자
junghoon lee
작성일
2020-08-06 16:46
조회
1605
1. Topic

- Neural Text Summarization 분야의 대표적인 논문 소개와 함께 BERT를 사용한 요약 모델을 발표한 논문인 Text Summarization with Pretrained Encoders 소개

2. Overview

자동 문서 요약(Automatic Text Summarization)은 크게 추출 요약과 생성 요약으로 나뉜다. 2015년 이전 대부분의 자동 문서 요약은 추출 요약 모델이었으며 이는 문서 내에 있는 문장을 그대로 사용하여 문서를 요약하는 방식이다. 2015년 이후부터 신경망 모델을 사용하는 요약(Neural Text Summarization) 모델들이 발표되어 좋은 성능을 보였다.  특히 신경망 기반 언어 생성(Neural Language Generation)이 발전하면서 문서에 존재하지 않는 단어/표현을 사용하여 요약문을 생성하는 생성 요약 방식이 많이 등장하기 시작했다.

본 세미나에서는 먼저 신경망을 이용한 대표적인 추출요약 모델 SummaRuNNer(2016)와 NeuSum(2018)에 대해 설명하고, 생성요약 모델인 Pointer-Generator(2017)와 Bottom-up Summarization(2018) 을 소개한다. 그리고 2019년 발표된 논문인 Text Summarization with Pretrained Encoder에 대해 설명한다. Text Summarization with Pretrained Encoder는 pretrain이 진행된 BERT에 Transformer 구조를 활용해 추출 요약과 생성 요약을 하는 두 가지 모델을 제안했다.

3. 발표자료 및 발표영상

[1] 발표자료

[2] 발표영상

4. 참고 문헌

발표 슬라이드 내 표기
전체 12

  • 2020-08-10 14:43

    텍스트 요약을 일반화하면, source text 데이터를 참조하여 새로운 target text를 생성하는 방법론이라고 할 수 있습니다. 딥러닝 이전 방법론은 단어/문장을 선택하거나, 문장 순서를 재배열 한후 일부 수정하는 방법을 제안하였습니다. 딥러닝 이후에는 크게 4가지 방법론들이 소개 되었으며, 1) summarRuNNer는 시퀀스(단어/문장)별로 target에 포함할지 안할지 결정하는데 문서를 참조해서 연관성과 다양성을 고려해 결과값을 산출합니다. 2) NeuSum는 Rouge score의 soft label을 사용한다는 점에서 준지도 학습 뿐만아니라 다양한 방법론에서 사용되는 것을 알 수 있었습니다. 3) Point generator는 각 시퀀스별로 vocab에서 가장 likely한 토큰을 예측을 하며, Source-based attention(copy distribution)을 vocab distribution에 덮어 씌운 방법론을 제안하였습니다. 4) Bottom-up attention은 정답요약문을 사용하여, 특정 단어를 사용할지 말지 분류하는 content selection을 제안하였습니다. 마지막으로 소개된 방법론들과 BERT를 결합한 방법론인 BERTSUMTEXT가 제안되었습니다. 인상 깊었던 점은 extractive, abstractive task를 순차적으로 학습해서 성능을 높인 점에서 task에 대한 순차적인 학습 방식도 개인연구에 적용해 볼 만한 아이디어 인것 같습니다.


  • 2020-08-11 05:53

    해당 세미나에는Text Summarization task에서 현재 Transformer논문까지 이어지고 있는 Milestone과 같은 논문들에 대한 소개와 함께 "Text Summarization with Pretrained Encoder" 논문을 다루어 보았습니다. 실제 BERT에 대한 성능이 입증된 상황에서 추출 및 생성 요약은 해당 소스문서에 대한 충분한 학습이 필요하기에 어려운 task로 알려져 있습니다. 해당 논문에서는 문장내 존재하는 문장을 통한 추출요약과 새롭게 요약된 문장을 작성하는 생성요약을 모두다 제안하고 있습니다. 추출요약의 경우, BERT모델위에 Encoder구조를 통해 수행하였으며, 생성요약의 경우는 해당 BERT 모델에 Decoder 모델을 추가 구성하여 생성요약을 수행하였습니다. 또한, 향후 연구계획에서도 기계번역 분야에서 단일 언어 데이터로 유착성을 높이고자 활용되고 있는 Back-translation을 활용하고자 하는 아이디어도 논리적으로 이해가 되었습니다. 개인적으로 Text Summarization과 Machine Translation은 많은 공통점을 가지고 있다고 생각하고 있기에, 충분히 좋은 결과를 보여줄 수 있을거라고 생각됩니다. 바쁜 연구실 일정와중에도 친절한 세미나 자료를 준비해준 이정훈 학생에게 감사드립니다.


  • 2020-08-11 14:52

    이번 세미나는 이정훈 석박통합의 Neural Text Summarization과 관련된 발표였습니다. Neural Network이후 summarization의 논문들을 다루었고, Extractive(추출) 및 Abstractive(생성) 요약에 대한 전반적인 흐름에 대해서 소개해 주었습니다.

    먼저, Extractive Summarization의 대표적인 논문으로는 RNN 기반의 SummaRuNNer와 NeuSum이 있습니다.

    Abstractive Summarization에서는 Pointer Generator와 Bottom-Up Attention 모델이 있습니다. Bottom-Up Attention 모델은 요약문에 나타나 단어를 원본 문서에 대해 masking을하는 content selection을 먼저 수행한 후에, 이를 요약문에 등장한 유/무에 따른 binary classification task를 수행합니다. 그런 다음 generator 또는 copy mechanism을 통해 abstractive summarization을 수행하게 됩니다.

    마지막으로, 최근 SOTA의 성능을 나타내고 있는 모델 중 하나인 BERTSum입니다. BERTSum의 입력으로는 [SEP]로 구분된 문장의 시작마다 [CLS] 토큰을 붙인 후 BERT를 거치고 나온 각 문장의 [CLS]토큰을 이용해 추출 요약 task를 수행합니다.

    Neural Network이후의 Extractive & Abstractive Summarization에 대한 동향을 설명해 주어서 전반적인 이해가 매우 잘 되었습니다. 현재 맡고 있는 프로젝트가 성공적으로 끝나길 바랍니다. 발표 감사합니다.


  • 2020-08-12 14:08

    문서요약에 대한 세미나 내용은 doc 중 어떤 단어,문장이 중요한지에 대한 점수를 매기는 것과 유사하다고 생각 하고 있었는데, 그래서 일반적인 NLP TASK 보다 좀 더 다양한 관점에서 연구가 되고 있지 않나 생각합니다. 이전 세미나들에서는 GRAPH 관련 요약방법을 볼 수 있었는데, 이번 발표는 RNN, Bert 관련 접근을 보았습니다. 또한, 최근에 많이 언급되고 있는 커리큘럼 러닝에 대해서도 언급이 있었는데, 데이터셋 혹은 task 를 진행할 때, 쉬운 것을 먼저 학습시키고, 순차적으로 task 를 어렵게 만들거나 어려운 문제를 풀도록 하는 방법 입니다. fine tuning 관점에서 많이 사용되고 있는 방법을 해당 방법론에서도 이용하는 것을 볼 수 있었습니다. 전체적인 transformer 구조에 대해서 한번 더 복습 할 수 있는 시간이였고, 직관적인 설명이 좋았습니다.


  • 2020-08-12 16:14

    NLP task 중에서 Summarization 분야에 대해 큰 줄기를 따라 과거부터 지금까지의 흐름을 언급하였습니다. Extractive 방법은 대표 문장을 뽑아내는 과정으로 쉬운 task라 볼 수 있고, 과거에 주로 진행되었다면 최근에는 뉴럴넷 기반의 Abstractive 방법으로 문장을 생성하여 방법론들이 제시되고 있습니다. Bottom-Up Attention 방법론이 특히 다른 방법론들과 결합하여 성능을 높일 수 있어서 흥미로웠습니다. point-generator 논문이 Token을 생성할 때, 기존 문서의 Token을 Copy 할 것인지 별도로 연산을 진행하는데, 이런 과정을 사전에 학습을 통하여 Copy 여부에 masking을 진행하는 것입니다. 더 흥미로운 점은 전체 데이터에서 1%만 학습해도 해당 방법론이 큰 효과를 본다는 점입니다. 발표 논문은 Summarization에서 Transformer를 적용하여 Extractive, Abstractive를 수행하는 것인데, 일반적으로 많이 쓰이는 RNN 계열에서 Transformer로 바꿔서 적용하고 작은 trick들을 설정하였습니다. 개인적인 의문으로는 Transformer의 Sequence가 512가 일반적인데 요약문을 작성하기 위한 문서가 클 때, 해당 모델을 적용할 수 있을까라는 점입니다. 또한 평가지표로 ROUGE score로 정답과 단어&구의 겹치는 수로 판단하는데, 겹치지 않더라도 올바른 요약문을 생성할 수 있기 때문에 이에 대해 Human evaluation을 별도로 수행하는 것 같습니다. 전반적인 흐름에 대한 깊은 고민으로 고퀄리티 세미나를 해준 발표자에게 감사드립니다.


  • 2020-08-12 21:12

    이번 세미나는 Text summarization을 주제로 진행되었습니다. Extractive summarization 분야는 최종현석사과정이 여러번 세미나를 해주어 자주 접하던 분야였는데, Abstractive summarization까지 다루어주어 도움이 되었습니다. neural 기반의 모델인 SummarRuNNer, NeuSum, Point generator, Bottom-up attention이 있었고 Abstractive모델은 extractive모델과는 다른 매커니즘을 사용한다는것을 알 수 있었습니다.

    소개해주신 논문인 BERTsum은 extractive summarization을 수행한 후 이 모델에 abstractive summarization을 추가하는 방식으로 진행되었습니다. 이렇게 했을때 성능의 향상이 두드러졌는데, 비슷한 task를 수행하는 경우 multi task learning의 연장선으로 비교적 쉬운 task를 학습한 후 추가학습을 해 성능을 높인것이 인상적이었습니다.

    전반적인 흐름을 짚어주셔서 도움이 많이 되었고, 진행하고있는 프로젝트에 적용할 수 있도록 필요한 개념들을 잘 정리해주셔서 좋았습니다. 감사합니다.


  • 2020-08-14 12:54

    이정훈 석박통합과정의 세미나 발표를 들었습니다. 오늘 발표해주신 내용은 Text Summarization 분야에 대한 전반적인 Overview와 EMNLP 2019 에 Accept 됐던 Text Summarization with Pretrained Encoders 논문에 대해서 소개해 주셨습니다. 먼저 Extractive Summarization task 쪽에서는 SummaRuNNer, NeuSum 모델, Abstractive Summarization task 쪽에서는 Pointer Generator 모델과, Bottom-Up Attention 모델을 소개해주셨는데, 그림과 함께 수식의 의미를 차근 차근 설명해주셔서 이해가 쉽게 됐습니다. 오늘 발표해주신 논문에서 제안한 모델은 BERTSum 이라는 모델로, 해당 모델은 Pretrained BERT 위에 추가적인Transformer Encoder 를 추가하여 Extractive Summarization 을 수행하거나, Transformer Decoder 를 추가하여 Abstractive Summarization 을 수행할 수 있도록 구축하여 두 가지 방법으로 Summarization 이 모두 가능하고 두 가지 방법을 합쳐서도 사용 가능한 모델이라고 합니다. 방대한 내용을 쉽고 간결하게 요약해서 잘 발표 해주셔서 발표 잘 들었습니다. 감사합니다.


  • 2020-08-14 13:49

    이번 세미나 주제는 Text Summarization 입니다. 첫번째로 설명해 주신 문서요약 모델은 BERTSumExt입니다. BERTSumExt는 Extractive Summarization 모델이므로 Input으로 문서에 있는 문장 전체를 사용하고 Output으로 문서의 문장 일부를 추출합니다. 모델의 구조는 BERT 위에 2개의 Transformer를 더 쌓은 모양입니다. 두번째 문서요약 모델은 BERTSumAbs입니다. ERTSumAbs는 Abstractive 모델이므로 BERTSumExt와 Input은 같으나 Output으로 Input에 있는 내용을 요약하여 새로운 문장을 생성합니다. 일반적인 생성모델의 형태인 Seq2Seq구조를 구성하기 위하여 BERT를 Encoder로 Transformer를 Decoder로 이용합니다. 이미 Pre-trained BERT가 다양한 Task에서 좋은 성능을 보이고 있으므로 Transfer Learning을 잘 적용한 사례라고 볼 수 있습니다. 하지만 역시나 BERT를 사용할 때 단점인 문서길이의 제한(512)도 그대로 갖고 있는 점을 확인 할 수 있습니다. 실험에서 Extractive 모델로 학습한 후 해당 Encoder를 Abstractive 모델의 Pre-trained 모델로 사용하면 성능이 향상된다는 점이 인상깊었습니다. 쉬운 Task를 학습한 후 어려운 Task를 학습하여 성능을 향상시키는 아이디어는 다양한 연구에 활용할 수 있을 것 같습니다. 문서요약과 관련된 이전연구들에 대한 설명을 구조적으로 잘 해 주셔서 이해하기 용이하였습니다. 감사합니다.


  • 2020-08-14 15:00

    금일 발표는 "Text Summarization with Pretrained Encoder"라는 주제로 진행되었습니다. 본 발표는 pretrained BERT에 Transformer 구조를 활용하여 추출 및 생성 요약을 할 수 있는 방법론을 중심으로 진행되었습니다. 이전에 개인적으로 추출 및 생성 요약을 결합하여 요약 성능을 높이는 것과 관련하여 연구를 한 적이 있었는데 이 부분과 연결되는 내용이라 더 관심을 가지고 발표를 청취하였습니다. 세미나에서 요약 분야의 논문들이 종종 발표되고 있기 때문에 발표 초반에 소개된 SummaRuNNer, NeuSum, Pointer-Generator, Bottom-up Summarization과 같은 모델을 통해 요약의 흐름을 정리해주신 부분이 새로운 방법론에 대해 이해하는데 많은 도움이 되었습니다. 더불어 오늘 주제가 된 BERT 기반의 추출 및 생성 요약 모델은 먼저 두 가지의 요약이 모두 가능하다는 점에서 흥미롭다고 생각되었으며, 실험 부분에서 추출 요약을 한 후 생성 요약을 진행하는 것이 더 좋은 결과를 도출한 점이 인상 깊었습니다. 깔끔한 정리와 흐름을 통해 요약 관련 발표를 잘 진행해주신 발표자께 감사드립니다!


  • 2020-08-17 22:59

    문서 요약에 관련된 전반적인 연구 흐름을 알 수 있었습니다. 최근 연구가 추출 요약에서 abstractive summarization으로 넘어가고 있다고 말씀을 해 주셨는데, 최근에도 여전히 extractive summarization 논문들을 여럿 본 기억이 있어 분야에 한정적인지 찾아봐야겠다는 생각을 하였습니다. 발표 초반에 여러 논문들을 알기 쉽게 설명해주어 발표를 전반적으로 따라가기에 쉬웠습니다. BERT-based text summarization 에서는 단순히 BERT위에 본인들의 task에 맞는 module을 올리는 최근 NLP분야의 trend를 그대로 반영하고 있다는 생각이 들었습니다. 또한 논문에서는 extractive summarization후에 abstractive summarization을 진행하여 좋은 성능을 보였는데, 이는 중요한 문장을 찾아낸 후 rewriting하는 과정이라고 이해 하였습니다. 하지만 사람이 하는 문서 요약은 저러한 식으로 진행되지 않는다고 생각이 들었으며 이 간극을 메우는 연구도 매우 흥미롭지 않을까라는 생각을 하였습니다.


  • 2020-08-18 20:31

    이번 세미나는 문서 요약에 관한 세미나였습니다. 우선적으로 문서 요약의 두 가지 갈래인 Extractive Summarization과 Abstractive Summarization에 대해 설명하고, Neural Network 기반의 Extractive Summarization 모델 2개와 Abstractive Summarization 모델 2개 및 두 가지 Task를 모두 수행할 수 있는 BERT 기반의 요약 모델 BERTSum에 대해 소개하였습니다.
    BERTSumExt의 경우 BERT가 기존 문장 구분을 위해 [SEP] 토큰만을 삽입한 것과 달리 모든 문장의 시작에 [CLS] 토큰을 추가적으로 삽입합니다. 이후 BERT를 거쳐 나온 Output중 [CLS] 토큰에 해당하는 Vector만을 선택하고, 이들 토큰을 다시 2개 층으로 구성된 Transformer Encoder에 삽입하여 해당 [CLS] 토큰을 보유한 문장이 추출 요약문에 포함될 문제인지를 분류하는 Binary Classification 문제로 Extractive Summarization Task를 수행합니다.
    BERTSumAbs의 경우 Transformer의 구조를 그대로 차용하여 BERT 결과 생성된 토큰들을 Context Vector로 Transformer Decoder단에서 요약문을 생성합니다. 이 때 Encoder는 Pre-train 된 BERT이며, Decoder는 처음부터 학습을 진행하므로 생겨나는 불균형을 해소하기 위해 Optimizer를 분리하는 방식을 제안합니다. 상세한 자료를 통해 문서 요약의 큰 흐름에 대해 설명해 주시어 해당 분야 이해에 큰 도움이 되었으며, 소개해주신 BERTSum 모델 역시 간단한 구조 변경으로 Summarization Task를 수행하였다는 점에서 흥미로웠습니다. 감사합니다.


  • 2020-08-30 15:04

    이번 세미나는 Text summerization의 여러 방법론들에 대해 리뷰하는 세미나였습니다. 우선 세미나 초반에 추출요약인 SummaRunner와 NeuSum에 대해서, 그리고 생성 요약인 Pointer Generator와 Bottom-up Attention에 대한 설명을 통해 텍스트 요약에 대한 과거 동향들에 대해서 살펴볼 수 있었습니다. 그리고 논문에서 제시하고 있는 BERTSum은 추출 요약과 생성요약을 순서대로 사용한 모델입니다. 우선 Pretrained BERT위에 transformer의 encoder를 사용한 추출 요약 과정(BERTSumExt)과정을 거친후, Pretrained BERT위 transformer의 decoder를 더한 생성 요약 과정(BERTSumAbs) 과정을 거치는 모델입니다. 또한 기존 BERT와 달리, input 형식에서 [SEP]으로 구분된 문장의 시작마다 [CLS]를 넣어서 input을 이루는 문장마다 분류를 할 수 있다는 장점이 있는 모델입니다. 이번 세미나를 통해 텍스트 요약에 대한 새로운 모델에 대해 알 수 있었고, 기존의 BERT에서 조금의 변형을 가하는 아이디어에 대해 생각해볼 수 있었습니다. 감사합니다.


전체 129
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1223
관리자 2020.03.12 0 1223
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 449
관리자 2020.03.12 0 449
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 990
관리자 2020.03.12 0 990
76
[Paper Review] Madnet: Using a mad optimization for defending against adversarial attacks (20)
Kyoungchan Park | 2020.10.09 | 추천 0 | 조회 289
Kyoungchan Park 2020.10.09 0 289
75
[Paper Review] Model agnostic Few shot learning (18)
Joongmin Park | 2020.10.07 | 추천 0 | 조회 438
Joongmin Park 2020.10.07 0 438
74
[Paper Review] Syntax and Semantics in Language Model Representation (18)
Myeongsup Kim | 2020.09.29 | 추천 0 | 조회 403
Myeongsup Kim 2020.09.29 0 403
73
[Paper Review] Unsupervised Graph Anomaly Detection (19)
Hyungseok Kim | 2020.09.25 | 추천 0 | 조회 533
Hyungseok Kim 2020.09.25 0 533
72
[Paper Review] Evaluation Metrics for Time Series Anomaly Detection (19)
Gyuwon Cho | 2020.09.23 | 추천 0 | 조회 513
Gyuwon Cho 2020.09.23 0 513
71
[Paper Review]Graph based Anomaly Detection (19)
Hyeyeon Kim | 2020.09.17 | 추천 0 | 조회 612
Hyeyeon Kim 2020.09.17 0 612
70
[Paper Review] MultiSAGE - Spatial GCN With Contextual Embedding (19)
Jungho Lee | 2020.09.15 | 추천 0 | 조회 713
Jungho Lee 2020.09.15 0 713
69
[Paper Review] Spectral-based Graph Convolutional Networks(GCN) (18)
Jonghyun Choi | 2020.09.08 | 추천 0 | 조회 1671
Jonghyun Choi 2020.09.08 0 1671
68
[Paper Review] Text Augmentation (18)
Jounghee Kim | 2020.08.30 | 추천 0 | 조회 1107
Jounghee Kim 2020.08.30 0 1107
67
[Paper Review] Deep Semi-Supervised Anomaly Detection (10)
Heejeong Choi | 2020.08.29 | 추천 0 | 조회 1638
Heejeong Choi 2020.08.29 0 1638

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.