2020 NeurIPS - 김탁영

NIPS
작성자
Takyoung Kim
작성일
2021-01-04 15:35
조회
89
수준 높은 학회임에도 저렴한 가격에 언제든 시청할 수 있게 공개해 주어서 감사히 시청하였습니다. 관심있었던 몇 개의 영상에 대한 소감을 남깁니다.

1. Bootstrap Your Own Latent - A New Approach to Self-supervised Learning

최근 많은 unlabeled data를 활용하기 위해 self-supervised learning 방법론에 대한 관심이 많아지면서 그 대표적인 방법으로 contrastive learning이 많이 언급됩니다. Contrastive learning은 이미지에 적절한 augmentation을 적용하고 같은 label을 갖는 feature는 가깝도록, 다른 label을 갖는 feature는 멀도록 학습하는 방법입니다. 하지만 본 논문(BYOL)에서는 별도의 negative sample을 필요로 하지 않는 대신, augmented image의 latent vector를 target으로 삼아 학습을 진행합니다.

아직 arxiv에만 올라와 있지만, 후속연구로서 "BYOL works even without batch statistics(https://arxiv.org/abs/2010.10241)"라는 논문이 있습니다. 기존 BYOL이 갖고 있는 mode collapse를 batch-independent normalization (group normalization + weight statndardization)으로 보완하는 내용입니다. 새롭게 등장한 학습 구조에 기존의 방법들이 점점 더해지면서 앞으로 모델의 성능 향상 폭이 점점 더 커질 것 같다는 생각이 들었습니다.

2. Why Do Neural Networks Learn When Trained With Random Labels?

일반적으로 우리는 학습할 때 random label이 주어지면 일반화 성능 측면에서 전혀 기대를 하지 않습니다. 그러나 본 논문에서는 random label로 학습된 가중치로 다른 random labeled 데이터를 학습할 때 속도를 빠르게 해 준다는 주장을 합니다(즉 학습에 유용한 무언가가 학습되었다는 뜻입니다). 결론적으로는 첫 번째 레이어에서는 data eigenvalue에서 weight eigenvalue로 transfer하는 function을 학습합니다. Random label로 학습 후 해당 가중치를 또다른 random label에 적용하였을 때의 상황에 대한 주장이었지만, 실제 label로 학습할 때에도 효과를 얻을 수 있다고 주장합니다. 아직 사람이 완벽하게 탐구하지 못한 feature representation에 대한 재미있는 발견이라 생각합니다. 논문을 잠깐 살펴보았을 때 아래의 그림과 같이 긍정적 효과를 가져오는 경우와 (initialization scale이나 random class 개수에 따른)부정적 효과를 가져오는 경우에 대해 명확하게 정의하였습니다. 본 방법론을 self 또는 semi supervised setting에서 많은 양의 unlabeled data에 적용할 수 있다면 빠른 수렴에 기여할 수 있겠다는 생각도 들었습니다.



3. Ultra-Low Precision 4-bit Training of Deep Neural Networks

딥러닝 모델을 학습할 때에는 기본적으로 32비트의 부동소수점을 사용하지만, 수를 표현하는 범위를 줄여 성능을 약간 희생하는 대신 메모리 효율과 학습 속도를 높일 수 있는 16비트를 사용하거나 두 비트를 함께 사용하는 mixed precision 방법이 많이 사용됩니다. 본 논문에서는 backward 연산 시 4-bit까지 축소합니다. 그만큼 수를 표현하는 범위가 줄어들기 때문에 gradient의 범위를 충분히 표현하지 못할까라는 우려가 있지만(gradient의 분산이 감소하게 됨), 새로운 radix-4 format을 사용하고 batchnorm 등의 기법으로 이를 보완합니다. radix format은 밑수(base)와 지수부(exponent) 중 밑수를 표현하는 방식입니다. 비트 연산 최적화 분야가 많이 어색하지만 굉장히 빠르게 발전하고 있음을 느낍니다. 아직 윈도우에서 16비트 연산도 지원하지 않아 불편했던 경험이 있었는데, 관련 분야가 다양한 운영체제에서도 적용될 수 있으면 좋겠습니다.
전체 0

전체 181
번호 제목 작성자 작성일 추천 조회
181
2020 NeurIPS - 김혜연
Hyeyeon Kim | 2021.01.18 | 추천 0 | 조회 113
Hyeyeon Kim 2021.01.18 0 113
180
2020 NeurIPS - 김형석
Hyungseok Kim | 2021.01.15 | 추천 0 | 조회 74
Hyungseok Kim 2021.01.15 0 74
179
2020 NeurIPS - 김명섭
Myeongsup Kim | 2021.01.14 | 추천 0 | 조회 62
Myeongsup Kim 2021.01.14 0 62
178
2020 대한산업공학회 추계학술대회 - 김명섭
Myeongsup Kim | 2021.01.14 | 추천 0 | 조회 52
Myeongsup Kim 2021.01.14 0 52
177
2020 NeurIPS - 이정호
Jungho Lee | 2021.01.06 | 추천 0 | 조회 93
Jungho Lee 2021.01.06 0 93
176
2020 NeurIPS - 이유경
Yukyung Lee | 2021.01.05 | 추천 0 | 조회 90
Yukyung Lee 2021.01.05 0 90
175
2020 NeurIPS - 최희정
Heejeong Choi | 2021.01.05 | 추천 0 | 조회 75
Heejeong Choi 2021.01.05 0 75
174
2020 대한산업공학회 춘계학술대회 - 이유경
Yukyung Lee | 2021.01.05 | 추천 0 | 조회 56
Yukyung Lee 2021.01.05 0 56
173
2020 대한산업공학회 추계학술대회 - 최희정
Heejeong Choi | 2021.01.05 | 추천 0 | 조회 55
Heejeong Choi 2021.01.05 0 55
172
2020 NeurIPS - 김탁영
Takyoung Kim | 2021.01.04 | 추천 0 | 조회 89
Takyoung Kim 2021.01.04 0 89

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.