[Paper Review] Data-Distortion Guided Self-Distillation for Deep Neural Networks

Paper Review
작성자
Takyoung Kim
작성일
2021-02-05 15:58
조회
152
1. Topic

Knowledge Distillation

2. Overview

Knowledge Distillation은 2015년 본격적으로 제안되면서 가벼운 모델을 만들기 위해 Teacher-Student 구조의 형태로 학습을 진행하는 방법론입니다.
2021년 현재에는 Knowledge의 정의 / Knowledge의 전달 방법 등에 따라 다양한 세부 분야로 나뉘게 되었고,
본 세미나에서는 별도의 Teacher 모델 없이 스스로 Distillation을 진행하는 Self-Distillation 분야에 대해 소개합니다.

Self-Distillation은 2019년과 2020년에 걸쳐 집중적으로 연구되기 시작한 분야이며,
본 논문에서 제안하는 방법론은 2018년에 소개된 Deep Mutual Learning 방법론을 단일 신경망에 적용할 수 있도록 설계하였습니다.
어떠한 Distillation을 적용하지 않은 단일 신경망과 같은 파라미터를 갖고 더 좋은 성능을 이끌어낸다는 점에서
Self-Disitllation 방법론은 파라미터의 잠재적인 capacity를 끌어내는 역할을 한다고 할 수 있습니다.

3. 발표자료 및 발표영상

[1] 발표자료 [LINK]
[2] 발표영상: [LINK]

4. 참고문헌

Data-Distortion Guided Self-Distillation for Deep Neural Networks (AAAI 2019) [LINK]

Deep Mutual Learning (CVPR 2018) [LINK]

Knowledge Distillation: A Survey (arXiv 2020) [LINK]
전체 15

  • 2021-02-08 01:48

    금일 발표는 "Data-Distortion Guided Self-Distillation for Deep Neural Networks"라는 주제로 진행되었습니다. 본 발표에서는 저희 연구실에서 처음 다루는 knowledge distillation에 대한 전반적인 내용이 설명되었고, data-distortion을 기반으로 한 self-distillation 방법론이 소개되었습니다. 해당 방법론은 data-distortion을 통해 도출한 2개의 input을 동일한 single network에 넣어 도출한 output이 유사도록 학습하는 과정을 통해 self-distillation을 해결하였습니다. 이와 관련하여 해당 모델의 구조가 siamese network와 어떤 점이 유사하고 다른지에 대해 토론하는 과정이 흥미로웠고, 추가적으로 실제로 2가지를 접목하여 진행된 개인 연구 부분도 매우 흥미로웠습니다. 더불어 발표자가 개인연구를 공격적으로 진행하는 과정을 보며, 개인적으로 동기부여도 되는 발표였습니다. 첫 발표라 걱정이 많으셨을 수도 있을텐데 좋은 발표 진행해주셔서 감사합니다.


  • 2021-02-08 13:28

    Knowledge distillation은 언제나 흥미롭지만 개인이 진행할 주제는 아니라는 생각을 가지고 있었습니다. GPU 자원이 매우 풍부한 회사의 연구원 분들과 이야기를 나누었을때 회사에서도 진행하기 쉬운 테스크는 아니라는 말을 들었기 때문입니다. 하지만 발표를 보면서 큰 도메인 안에 개인이 진행할 수 있는 영역들도 존재하는 것 같아 흥미로웠습니다. 본 연구에서는 data distortion을 기반으로 한 self-distillation 방법론이 소개되었는데, 이를 보며 딥러닝에서 다양한 연구가 활발하게 진행되면서 이제는 정말 독립적인 연구 분야가 없다는 생각이 들었습니다. 발표자의 개인연구 아이디어 또한 self-distillation에 unlabeled data를 사용하는 방식으로 이루어졌는데, 좋은 결과가 있으면 좋겠습니다.


  • 2021-02-08 14:00

    Knowledge distillation은 최근 주변에서 연구하는 것을 많이 하는것으로 보아 hot한 연구분야인것 같습니다. 전반적으로 제가 이해한 바로는 contrastive learning과 distillation의 차이가 굉장히 구분하기 어려울정도로 서로 비슷한것 같습니다. 그래서 제가 판단한 바로는 '목적이 다르다'라고 판단이 되었는데요 distillation은 보다 더 작고 효과적인 파라미터로 모델을 축소시키는 목적을 가졌다면 contrastive learning은 representation learning의 한 분야로 pre-training에 목적을 두고 있는 것 같습니다. 또한 temperature scale의 온도를 높여 uniform 분포(prior)에 양상을 가지도록 softmax를 변형하는다는 점에서 베이지안과 연결지어 내용(teacher를 prior 분포로 student를 likelihood 분포로 설정)을 이해하거나 관련연구를 찾아보면 흥미로운 연구가 되지 않을까 생각해봅니다. 좋은 발표 감사합니다.


  • 2021-02-08 14:19

    김탁영 석사과정의 첫 세미나에서는 모델의 성능은 좋으나 Deploy 측면에서 매우 큰 모델은 활용이 어렵기에 Ouput이 담고 있는 지식을 작은 모델에 전달하는 Knowledge Distillation에 대하여 Overview를 먼저 살펴보았습니다. Output에 지식이 있는 이유는 Softmax에서 정답 이외의 Label에도 정보가 녹아 있을 것을 가정한 것이며 큰 모델일수록 풍부한 정보를 가질 것이라고 생각하기 때문입니다. 이는 Softmax Temperature와도 연관이 있어, 온도를 높게하면 분포가 완만해져 정보의 손실이 나타나기도 합니다. 이후, KD의 전체 Background와 Structure를 설명해주었습니다. KD의 Overview이후, 개인연구과 관련있는 Self-Distillation을 살펴보았으며, 이는 큰 모델에게서 지식을 전수 받는 Teacher-to-Student류와는 다르게 자기 자신으로부터의 상호적 학습을 뜻하며, 발표자도 언급했듯 KD의 꼴만 가져오고 모델을 더 Robust하게 구성할 수 있는 Regularization 기법에 가까웠습니다. 동기로서 우수한 첫 발표를 진행한 것에 존경심을 표하고 싶으며 좋은 발표 감사드립니다.


  • 2021-02-08 14:29

    Knowledge distillation은 작은 모델의 성능을 높이기 위해 큰 모델의 지식을 작은 모델에 전달하고자 하는 기법입니다. 이때의 큰 모델을 teacher model, 작은 모델을 student model이라고 합니다. 크게 두 개의 loss를 최소화 하는 방법으로 진행합니다. input이 pre-training된 teacher model과 student model에 들어가면, teacher, student model의 prediction의 분포를 유사하게 하면서 동시에 student model의 prediction과 실제 label 사이의 error를 최소화 하는 방향으로 학습합니다. 이때 teacher의 prediction의 확률 분포를 information이라고 정의하고, 더 큰 모델일수록 풍부한 정보를 가지고 있으므로 이 정보를 student로 전달하고자 이러한 방식으로 학습을 진행하는 것입니다. 또한 teacher의 정보를 얼마나 가지고 올지, 분포를 얼마나 유사하게 할지를 T라는 parameter로 그 정도를 설정할 수 있습니다.

    이번 세미나에서 소개해주신 논문에서 제안하는 self-distillation은 mutual learning을 단일 모델로 가능하게 했다는데 의의가 있는 방법론이었습니다. 여기서 착안한 아이디어로 진행하신 개인 연구도 적절한 근거를 바탕으로 실험을 진행하고 계신 것 같았고, 아이디어를 빠르게 구현해보는 자세가 인상깊었습니다. 좋은 발표 감사합니다.


  • 2021-02-08 14:47

    금일 세미나에서는 Knowledge Distillation에 대한 전반적인 소개와 더불어, Data Distortion을 이용한 Self-Distillation을 사용한 논문에 관하여 소개해 주셨습니다.
    해당 논문에서는 Image Batch에 다양한 변화를 이용하여 Distortion을 가한 두 Group의 Data를 만들고, 이를 Concat한 뒤, Single Network를 통과시킨 Representation이 서로 비슷하도록 학습을 수행하는 방식으로 Distillation을 수행하였습니다. 결과적으로 Parameter가 훨씬 많은 Complex Network에 비하여는 성능이 낮지만, 동일한 Parameter의 Compact Network에 비해서는 성능이 향상됨을 확인할 수 있었습니다. 스터디에서 꾸준히 Distillation 분야에 관해 소개해 주셔 이해하기가 수월하였으며, 개인적으로는 아직 낯선 분야인 Distillation에 관해 폭넓게 이해할 수 있는 좋은 시간이었습니다. 좋은 발표 진행해주셔서 감사합니다.


  • 2021-02-08 14:48

    이번 세미나는 data distortion을 활용하는 self-distillation방법론에 대한 논문을 다룬 세미나였습니다. Self-distillation은 파라미터 개수는 single student와 동일하지만 performance 측면에서는 teacher-student모델과 같다는 장점이 있습니다. 본 모델은 우선 data distortion으로 데이터를 augment하고 feature extraction layer를 거쳐 classifier와 predictor를 거치는 과정에서 self-distillation을 적용하여 supervised loss와 distillation loss, MMD loss를 모두 고려하는 방법입니다. 세미나 처음에 knowledge distillation에 대한 분야를 map 형태로 정리한 것과 본인의 개인 연구가 distillation의 어떤 논문에서 발전해나간 연구인지를 시각적으로 표현해주어서 더욱 이해가 잘 갔습니다. 깔끔한 발표 감사합니다.


  • 2021-02-08 19:03

    금일 세미나는 knowledge distillation 중에서도 self-distillation에 대한 발표로 진행되었습니다. Self-distillation은 teache 모델 없이 스스로 distillation을 수행하는 방법론입니다. 일반 모델보다 파라미터 개수가 적은 Single student model에 distorted data를 넣고, 이를 crop 하여 모델의 input으로 활용합니다. Feature extractor를 통해 추출된 정보의 분포의 차이를 작게 만드는 MMD loss 와 실제 예측값을 바탕으로 cross entropy loss, 마지막으로 distillation loss를 추가하여 총 3가지 종류의 loss term을 기반으로 학습을 진행합니다. 논문에서 아이디어를 얻고, 이를 파일럿 실험을 통해 검증해본 후, 본 실험을 통해 빠르게 연구를 진행하는 자세를 배울 수 있는 좋은 세미나였습니다. 좋은 발표 감사합니다.


  • 2021-02-08 19:59

    금일 세미나는 Knowledge distillation과 관련된 다양한 기법들을 설명 주셨습니다. 근래에 딥러닝 모델들이 활용되면서 다양한 테스크에서 높은 성능을 보이고 있습니다.
    하지만 이러한 모델들은 너무 크기 때문에 임베딩 시스템에 적용하는데 무리가 있습니다. 오늘 설명해 주신 다양한 Distillation 방법을 활용하면 크고 무거운 모델과 비슷한 성능을 내는 작은 모델을 개발할 수 있기 때문에 대단히 중요한 연구라고 생각합니다. 가장 흥미 깊었던 방법론은 Self-Distilation 입니다.Self-distilation는 모델의 크기를 줄이는 것이 아니라 두 모델을 함께 학습 시킴으로써 모델의 성능을 향상 시키는 방법입니다. Distillation에 대한 전반적인 내용을 잘 정리해 주셔서 이해하기 쉬웠습니다. 좋은 발표 감사합니다.


  • 2021-02-09 05:17

    Knowledge distillation은 서비스 등의 큰 모델을 활용할 수 없는 상황에 작은 모델이지만 높은 성능을 보이는 모델을 만들 필요가 있어 탄생한 개념입니다. 이름에서 알 수 있듯이 지식의 증류라고 해서 teacher model(큰 모델)의 지식을 증류 시켜 student model(작은 모델)에게 계승시키는 것으로 해석할 수도 있을 것 같습니다. Knowledge distillation은 지식을 어떻게 정의하는가, 어떻게 전달하는가 등의 기준으로 다양하게 분류할 수 있으며 학습은 각각 teacher model과 student model 두 개의 loss를 최소화 하는 방법으로 진행합니다.

    다양한 knowledge distillation 중에서도 금일은 self-distillation에 대한 발표로 진행되었습니다. Self-distillation이란, 단 하나의 network만 가지고 distillation을 수행하는 방법론입니다. Single model에 Data-Distortion을 수행한 data를 concat하여 모델의 input으로 활용합니다. Feature extractor를 통해 추출된 정보의 분포의 차이를 작게 만드는 Maximum Mean Discrepancy loss 와 실제 예측값을 바탕으로 cross entropy loss, 마지막으로 distillation loss를 추가하여 총 3가지 종류의 loss term을 기반으로 학습을 진행합니다. 세미나 도중에 contrastive learning과 distillation의 차이를 묻는 질문이 나왔는데 저도 상당히 비슷하다고 느꼇는데 아직까지 그 차이를 잘 모르겠습니다.

    평소 knowledge distillation에 관심이 많았고 열심히 하는 것은 알았는데 벌써 논문에서 아이디어를 얻고, 실험 설계부터 파일럿 실험까지 척척해나가는 모습을 보며 배울 점이 많다고 느꼈습니다. 좋은 발표 감사합니다.


  • 2021-02-09 05:45

    금일 세미나에서 knowledge distillation 관련 논문을 발표했습니다. 발표내용중 single net 즉 본 논문에서는 self distillation 이라고 설명되는 방법론을 설명해 주셨습니다. 처음 내용을 들었을때 siamse net 과 매우 유사한것 같았는데 미세한 차이는 존재 했던것 같습니다. 이미지를 concat 하고 이를 다시 메모리 사이즈가 같은 network 로 활용하는 관점이 distillation 관점으로 해석했던 것같습니다. 사실 siamse net 은 triplet loss 를 통해 학습을 진행하면서 , robust 한 loss 를 활용하게되면서 지도학습의 관점이 살짝 다른 느낌이 있는데, 해당 방법론 자체가 regularization 역할을 하게되는 관점이 비슷한것같습니다. 개인연구도 빠르게 진행되는 것 같은데 좋은연구 있길 바랍니다.


  • 2021-02-09 15:45

    금번 세미나에서는 self distillation에 관한 자세한 설명을 들을 수 있었습니다. 제가 알기로는 연구실에서 distillation 분야를 깊게 파는 연구원이 탁영이밖에 없어서 특히 흥미롭게 들었던 것 같습니다. Distillation 중에서도 self-distillation은 teacher model을 자기 자신으로 삼는 특징을 가지는데, 이번에 소개해주신 모델의 경우 데이터에 distortion을 주고 네트워크에 통과시켜, output representation이 서로 유사하도록 하는 방법론을 사용합니다. 이 외에도 예측값이 유사하도록 하는 CE, distillation loss를 활용하여 distillation을 수행하는 것으로 이해하였습니다. 라즈베리파이 같은 임베디드 시스템에 있어서 distillation은 굉장히 중요한 분야라고 생각됩니다. 앞으로도 유망한 분야이고 본인이 열정이 있는 만큼 좋은 결과가 있을 것 같습니다. 좋은 발표 감사하고, 항상 많이 배우고 있습니다.


  • 2021-02-09 23:22

    오늘 세미나는 Data-Distortion Guided Self-Distillation for Deep Neural Networks를 주제로 진행되었습니다. 연구실 입학 후 여러 스터디를 통해 distillation 에 대해 알게되었는데, 그 연장선으로 self distillation에대해 다루어주셨습니다. distillation, contiual learning, multitask learning, few shot learning등 비슷한듯 다른 여러가지 분야들이 있는데, 세미나 청취와 개인 공부를 통해 각 개념들이 가지는 차이점들을 이해하게 되는 것 같습니다. 발표를 들으몀서 12페이지와 ~14페이지를 큰 도움이 되었는데 명확하게 개념을 알려주셔 좋았습니다. single netwotk로 distillation을 하는것이 신기했습니다. 추가적으로 distillation의 성능평가표가 신기하게 느껴지는데 작은 모델로 비슷한 성능을 내는지 보여주는 지표들이 재미있었습니다. 감사합니다 !


  • 2021-02-10 15:26

    knowledge distillation은 기학습된 대규모의 teacher model을 이용해 soft label을 생성한 후 이를 이용해 소규모의 randomly initialized student model을 학습하는 방식입니다. 금일 소개해주신 self-distillation은 data를 distortion시킨 두 개의 input을 도출한 뒤 동일한 하나의 network에 넣어 두 가지 output이 유사해지도록 학습하는 방식입니다. 해당 논문의 방식을 바탕으로 개인연구를 진행하고 계시는데 좋은 결과가 있었으면 좋겠습니다. 개인적으로 distillation은 downstream task에 대한 성능은 teacher model과 견줄만한 성능을 뽑을 수 있어도 robustness와 같은 측면에서는 잘 대처하지 못하지 않을까 하는 생각을 갖고 있는데 해당 방향으로 연구를 해 봐도 괜찮을 것 같습니다. 그리고 semi supervised쪽에서 많이 사용하고 있는 테크닉인 EWA와 같은 방식을 도입해봐도 괜찮겠다는 생각이 들었습니다. 좋은 발표를 들려주셔서 감사합니다.


  • 2021-02-14 02:53

    knowledge distillation은 최근 2년간 계속해서 연구가 활발히 이루어 지고 있는 학습 방식입니다. 발표자께서 세미나 초반에 소개해주신 Background와 논문을 읽어온 map은 이 분야에 대해서 처음 접하는 사람들에게 좋은 학습 이정표가 될 정도로 너무 잘 정리해 주어서 매우 인상적이었습니다. 더구나 첫 세미나 발표임에도 불구하고 원할하게 발표를 잘 이끌어 주었다고 생각됩니다. knowledge distillation과 관련하여 앞으로도 재미있는 연구결과를 공유해주시면 감사하겠고, 좋은 연구결과로 이어지길 바라겠습니다.


전체 117
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1024
관리자 2020.03.12 0 1024
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 332
관리자 2020.03.12 0 332
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 825
관리자 2020.03.12 0 825
114
New [Paper Review] BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning (1)
junghoon lee | 05:32 | 추천 0 | 조회 30
junghoon lee 05:32 0 30
113
[paper Review] GNNExplainer: Generating Explanations for Graph Neural Networks (1)
Hoonsang Yoon | 2021.02.24 | 추천 0 | 조회 68
Hoonsang Yoon 2021.02.24 0 68
112
[Paper Review] OOD Detection Using an Ensemble of Self-Supervised Leave-out Classifiers (1)
Kyoungchan Park | 2021.02.23 | 추천 0 | 조회 55
Kyoungchan Park 2021.02.23 0 55
111
[Paper Review] FreeLB: Enhanced Adversarial Training for Natural Language Understanding (1)
Myeongsup Kim | 2021.02.19 | 추천 0 | 조회 82
Myeongsup Kim 2021.02.19 0 82
110
[Paper Review] ICNet for Real-Time Semantic Segmentation on High-Resolution Images (5)
Yunseung Lee | 2021.02.19 | 추천 0 | 조회 69
Yunseung Lee 2021.02.19 0 69
109
[Paper Review] Geometic Graph Convolutional Networks (11)
Hyungseok Kim | 2021.02.09 | 추천 0 | 조회 183
Hyungseok Kim 2021.02.09 0 183
108
[Paper Review] Latent Space Autoregression for Novelty Detection (14)
Hyeyeon Kim | 2021.02.07 | 추천 0 | 조회 129
Hyeyeon Kim 2021.02.07 0 129
107
[Paper Review] Data-Distortion Guided Self-Distillation for Deep Neural Networks (15)
Takyoung Kim | 2021.02.05 | 추천 0 | 조회 152
Takyoung Kim 2021.02.05 0 152
106
[Paper Review] DisenHAN: Disentangled Heterogeneous Graph Attention Network for Recommendation (15)
Jungho Lee | 2021.02.03 | 추천 0 | 조회 124
Jungho Lee 2021.02.03 0 124
105
[Paper Review] Representation Learning with Contrastive Predictive Coding (15)
Jounghee Kim | 2021.02.01 | 추천 0 | 조회 161
Jounghee Kim 2021.02.01 0 161

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.