[Paper Review] BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning

Paper Review
작성자
junghoon lee
작성일
2021-02-26 05:32
조회
202
1. Topic

memory-efficient ensemble 방법인 BatchEnsemble 제안

2. Overview
  • 여러 task에서 사용할 수 있는 효율적인 ensemble 방법인 BatchEnsemble 제안
  • rank-1 matrix와 weight의 hadamard product를 이용해 기존 ensemble 방법의 computation & memory bottleneck 제거
  • image classification, machine translation, uncertainty estimation에서 기존의 ensemble 방법보다 적은 파라미터로 견줄만한 성능을 보임
  • lifelong learning에서 기존 모델(PNN)과 비슷한 성능과 forgetting을 보여주면서도 time, memory cost는 대폭 줄어듦
  • lifelong learning에서 100개 가량의 많은 task에 대해서도 적용 가능
3. 발표 자료: 첨부파일 확인

4. 발표 영상: 추후 업로드 예정
전체 8

  • 2021-03-27 21:11

    본 세미나에서는 단일 모델 성능이 좋지 않을 때, 여러 모델의 예측을 평균 내어 하나의 모델로 나타내는 Ensemble 기법의 문제점을 해소하고자 한 BatchEnsemble에 대한 내용을 다루었습니다. Ensemble은 단일 모델보다 성능이 증가하고 다양한 결과의 평균이므로 Uncertainty가 낮아지는 장점은 있지만, 여러 모델이 혼합되기에 모델 집합이 커질 수록 사용하는 비용이 커지게 되는 단점이 있습니다. 비용은 모델 Size와 연관이 되어 있는데 여러 모델의 파라미터를 모두 저장하는 것을 의미하며 BatchEnsemble은 개별 Model의 Weight Matrix를 공유된 Weight의 Hadamard 곱으로서 나타내는 방식으로 무게를 줄이고자 합니다. 또한 해당 방식으로 Ensemble 자체를 결과에 대한 평균이 아니라 Batch 단위로 묶어 한 번에 학습 및 추론이 가능해지기 때문에 Parallelization에서도 이점을 갖고 있으며, 기존 Ensemble 방법의 Computation과 Memory Bottleneck을 제거하여 훨씬 빠르고 효율적인 Ensemble 모델이라고 생각됩니다. 좋은 발표 감사합니다!


  • 2021-04-01 17:03

    일반적으로 알려진 앙상블 기법은 같은 네트워크를 여러 개 학습하여도 서로다른 local optima에 위치해있기 때문에 단순 평균으로도 어느 정도 성능의 lower bound를 보장한다고 알려져 있습니다. 즉 개별 모델을 다양하게 갖추는 것이 도움된다는 것인데요, 하지만 그만큼 cost가 많이 발생하여 실제로 사용하기는 어려울 수 있습니다. 본 논문에서는 앙상블에 사용되는 과도한 메모리 사용량이나 연산량을 줄이는 batchensemble을 제안합니다. 인상적이었던 부분은 device 내에서도 parallel한 연산을 할 수 있다는 점이었습니다. 이전에 보았던 online distillation 방법론에서는 gpu 간 parallel한 연산으로 앙상블을 하여 teacher 모델을 만드는데, 유사한 접근을 device 내에서 수행하는 것으로 보아 두 방법론을 결합할 수도 있겠다는 생각이 들었습니다. 항상 uncertainty 관점에서 좋은 발표 들려주셔서 많이 배웠습니다. 감사합니다.


  • 2021-04-07 16:20

    오늘 세미나에서는 "BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning라는 논문을 소개해주셨고, 딥러닝에 앙상블을 적용하는 기법에 대한 전반적인 내용 또한 다루어주셨습니다. 딥러닝에서의 앙상블 기법은 앞으로도 많은 연구가 진행될 분야이고, 또 그럴 필요가 많은 분야라고 생각합니다. 딥러닝이 모델 측면에서 발달하는 것도 있지만 실제 생활에 접목될 인공지능에 쓰이기 위해서는 uncertainty에 대한 보다 효과적이고 정확한 예측이 가능해야 하고, 그러한 부분에서 앙상블이 굉장히 효과적이라고 생각하기 때문입니다. 다만 앙상블은 계산 비용 측면에서 효율성을 개선하는 것이 중요하며, 오늘 소개해주신 논문은 앙상블이 수행되는 모형 간 weight를 공유할 수 있도록 하여 훨씬 빠른 속도의 계산을 이뤄냈습니다. 또한 life-long learning 관점에서도 forgetting을 방지할 수 있는 기법이기 때문에, 다양한 분야에서 효과적으로 사용될 수 있는 방법론이라고 이해하였습니다. 시각적인 자료와 함께 좋은 발표 진행해 주셔서 감사합니다.


  • 2021-02-26 17:52

    금일 세미나 시간에는 BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning 논문을 주제로 세미나를 다루어 보았습니다. 논문의 타이틀에서의 앙상블은 일반적으로 여러 개의 신경망을 개별적으로 훈련하고 이를 평균화하는 방법을 의미합니다. 이는 기존 단일 신경망의 정확도와 예측 불확실성을 모두 개선할 수 있지만, 이를 위한 각각의 네트워크 수에 따라 연산량이 증가하는 단점이 존재합니다. 따라서 해당 논문에서는 이러한 문제점을 해결하기위각 가중치 행렬을 모든 앙상블 모델(member)간의 공유된 가중치의 Hadamard Product (Elementwise product) 곱으로 정의하여 parallelization을 수행하는 Batch Ensemble 방법론을 제안하였습니다. 이를 lifelong learning 과정에서 적용한다면 순차적으로 task단계를 거칠수록 matrix가 아닌 벡터(r_i, s_i)가 추가되기 때문에 훨씬 낮은 계산 및 메모리 비용을 사용하면서 점진적인 신경망에 준하는 성능을 가질 수 있었습니다. 최근 연구실에서도 Lifelong Learning을 세미나시간 혹은 다른 계기를 통해서 지속적으로 접하고 있는 상황에서, 모델의 효율성 측면으로 인상적인 성능을 보여주었고, 발표자가 직접 준비한 시각적 자료를 통해 matrix form의 Batch Ensemble 연산과정을 한눈에 파악할 수 있어 좋았습니다. 재미있는 논문을 통해 세미나시간을 채워준 발표자에게 감사의 인사 전하며 글을 줄이도록 하겠습니다. 감사합니다.


  • 2021-03-02 15:45

    이번 세미나에서는 딥러닝에서 사용될 수 있는 앙상블에 대한 세미나였습니다. Random seed를 활용한 결과들의 앙상블, dropout에서 발생되는 결과의 앙상블, 이전 checkpoint를 활용한 temporal ensemble과 snapshot ensemble에 대해서 도입부를 진행해 주셨습니다. 발표주제는 batch-ensemble로 해당 방법론으로 batch안에 weight를 곱할 때 앙상블을 위한 candidate를 vectors를 추가적으로 고려함(weight size에 해당하는 두개 벡터의 외적)으로써 batch단위로 모델 학습할 때 one-shot으로 할 수 있는 구조 인 것 같습니다. 결과적으로 해당 방법론은 좋은 성능과 효율적인 메모리를 가지는 것 같습니다. 효율적인 메모리를 가질 수 있다는 점에서 Lifelong Learning등 다양한 application에 활용할 수 있을 것 같습니다. 좋은 발표 감사합니다.


  • 2021-03-05 11:05

    여러모로 흥미로운 연구를 소개하는 세미나였습니다. 우선 제가 연구하고 있는 adversarial example도 그렇고, continual learning도 그렇고 딥러닝의 문제를 제기하는 연구 분야들이 다른 연구 분야의 성능 지표로 사용되는 빈도가 늘어나고 있습니다. 이는 단순한 task에 대한 성능 뿐만 아니라 딥러닝 자체의 강건성을 추구하고 있다고 생각이 됩니다. 여러 분야가 융합되어 결국 최적의 모델이 탄생하는 날이 오지 않을까 기대합니다. 또한 모델을 학습하다보면 GPU 메모리가 남아서 배치사이즈를 키울 수 있음에도 너무 많이 키우면 성능이 오히려 저하되는 경우도 많이 발생하고, 많은 경우에 성능 향상이 없음을 확인하게 됩니다. 한정된 자원을 사용하는 입장에서 이는 참 안타까운 일인데, 본 논문에서는 배치 앙상블을 통하여 자원을 온전히 사용하면서 성능도 함께 향상시킬 수 있음을 실험적으로 증명하였습니다. 이에 앞으로 꾸준히 발전할 수 있는 분야라는 생각이 들었습니다.


  • 2021-03-15 15:20

    오늘 세미나는 life-long learning에서 여러개의 task를 순차적으로 학습할 때 발생하는 catastrophic forgetting 방지하기 위한 방법론 중 하나인 BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning 논문을 소개해 주셨습니다. 일반적으로 앙상블 모델은 모델의 수가 늘어날 수록 계산량과 메모리 사용량이 선형적으로 늘어나는 반면 해당 논문에서는 앙상블 모델끼리 공유할 수 있는 shared weight를 지정함으로써 computation & memory bottleneck 제거하였습니다. 또한 shared memory는 첫번째 task에 고정되고 각 모델은 task별로 학습되므로 catastrophic forgetting을 방지할 수 있다는 장점을 갖고 있습니다. 개인적으로 매우 흥미로운 방법론이라는 생각이 들었습니다. 아무리 컴퓨터 자원이 충분하다고 하더라도 성능향상을 위하여 모델의 크기를 증가시키는 것은 서비스 관점에서 매우 비효율적입니다. 해당 논문은 그러한 문제를 많이 완화하여 매우 실용적인 논문이라고 생각합니다. 좋은 발표 감사합니다.


  • 2021-03-22 18:47

    본 발표는 "BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning"라는 주제로 진행되었습니다. 본 발표에서는 여러 task에서 사용할 수 있는 효율적인 ensemble 방법인 BatchEnsemble가 소개되었습니다. 먼저 본 발표의 제목에 lifelong learning이 포함되어 있어 관심을 가지고 발표를 청취하였습니다. 먼저 rank-1 matrix와 weight의 hadamard product를 이용해 기존 ensemble 방법의 계산량 문제와 memory bottleneck을 제거한 방법이 인상적이었습니다. 더불어 메모리 측면에서 효율적인 해당 방법론을 기반으로 메모리에 매우 취약한 lifelong learning의 성능을 향상시킨 점 또한 인상적이었습니다. 최근 이상치 탐지에서도 앙상블이 많이 적용되고 있는데 새로운 앙상블 방법을 접할 수 있어 좋았습니다. 좋은 발표 감사합니다.


전체 129
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1222
관리자 2020.03.12 0 1222
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 447
관리자 2020.03.12 0 447
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 989
관리자 2020.03.12 0 989
126
[Paper Review] Deep GNNs (3)
Hyungseok Kim | 2021.04.16 | 추천 0 | 조회 33
Hyungseok Kim 2021.04.16 0 33
125
[Paper Review] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (3)
Takyoung Kim | 2021.04.13 | 추천 0 | 조회 45
Takyoung Kim 2021.04.13 0 45
124
[Paper Review] Uninformed Students: Student–Teacher Anomaly Detection with Discriminative Latent Embeddings (4)
Hyeyeon Kim | 2021.04.07 | 추천 0 | 조회 82
Hyeyeon Kim 2021.04.07 0 82
123
[paper Review] Contrastive Learning for Sequential Recommendation (4)
Jungho Lee | 2021.04.03 | 추천 0 | 조회 121
Jungho Lee 2021.04.03 0 121
122
[Paper Review] Deep Image Retrieval: Learning global representations for image search (5)
Kyoosung So | 2021.03.31 | 추천 0 | 조회 93
Kyoosung So 2021.03.31 0 93
121
[Paper Review] Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations (6)
Jounghee Kim | 2021.03.24 | 추천 0 | 조회 149
Jounghee Kim 2021.03.24 0 149
120
[Paper Review] Time Series Anomaly Detection with Multiresolution Ensemble Decoding (6)
Heejeong Choi | 2021.03.23 | 추천 0 | 조회 132
Heejeong Choi 2021.03.23 0 132
119
[Paper Review] QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension (8)
Jina Kim | 2021.03.19 | 추천 0 | 조회 164
Jina Kim 2021.03.19 0 164
118
[Paper Review] SOM-DST  : Efficient Dialogue State Tracking by Selectively Overwriting Memory (7)
Yukyung Lee | 2021.03.13 | 추천 0 | 조회 184
Yukyung Lee 2021.03.13 0 184
117
[Paper Review] A Simple Framework for Contrastive Learning of Visual Representations (10)
Donghwa Kim | 2021.03.10 | 추천 0 | 조회 255
Donghwa Kim 2021.03.10 0 255

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.