2019 International Conf. on Computer Vision - 이정훈

ICCV
작성자
관리자
작성일
2020-03-12 13:53
조회
450
세계적인 컴퓨터 비전 학회인 ICCV가 서울 코엑스에서 열려 참석하게 되었습니다. 학회는 일요일 아침 일찍부터 시작됐습니다. 전 세계 우수한 학교와 기업의 컴퓨터 비전 전문가들이 모인다는 사실에 피곤함 없이 설레는 마음으로 학회에 입장할 수 있었습니다.

[Tutorial - Everything You Need to Know to Reproduce SOTA Deep Learning Models]

학회 첫 날은 튜토리얼과 워크샵 세션이 있었습니다. 첫 날 집중했던 튜토리얼은 ‘Everything You Need to Know to Reproduce SOTA Deep Learning Models’입니다. 아마존에서 개최한 해당 튜토리얼은 컴퓨터 비전의 여러 가지 최신 모델을 GluonCV와 MxNet을 통해 쉽게 구현하는 방법을 알려줍니다. MxNet은 딥러닝 프레임워크로써 굉장히 효율적이고 빠른 프레임워크라고 합니다. 그리고 GluonCV는 컴퓨터 비전을 위한 툴 킷으로 다양한 SOTA 모델의 파라미터가 저장되어 있을 뿐만 아니라 이를 사용자가 쉽게 fine-tuning할 수 있도록 설계되어 있습니다. NLP 연구를 진행할 때 이와 유사한 GluonNLP를 통해 편하게 모델을 구현했던 경험이 있었습니다. 기존에 텐서플로우를 쓰다 파이토치를 처음 이용했을 때 굉장히 직관적이고 쉬운 방식에 놀랐던 경험이 있었습니다. MxNet과 Gluon 또한 굉장히 쉽고 직관적인 설계로 복잡한 모델도 어렵지 않게 설계되었고 뿐만 아니라 속도에 큰 강점이 있습니다. 이제는 딥러닝 모델뿐만 아니라 프레임워크도 빠른 속도로 발전하고 있다는 것을 체감할 수 있었습니다.

프레임워크에 대한 설명이 끝난 뒤 최근 대용량 학습에서 많이 이용되는 몇 가지 기법들이 소개되었습니다. 크게 Large-batch Training, Low-precision Training 그리고 이에 대한 Experimental Result가 있었습니다. 최근 NLP에서도 큰 배치사이즈로 대규모 모델을 돌리는 경우가 많아 모두 한 번씩 고민했던 내용이었고 이에 대한 설명을 들을 수 있어서 좋았습니다. 특히 최근 안정적인 학습을 하는 데 많은 도움을 받을 수 있던 Learning rate warm up에 대한 부분과 GPU 메모리의 한계를 극복하는 데 도움을 주는 Mixed Precision Training에 대한 부분이 인상깊었고 이 두 파트는 모델 학습에 실제로 이용하고 있습니다.

기법들에 대한 설명이 끝난 후 최신 모델들을 MxNet과 GluonCV를 이용해 구현하는 시간을 가졌습니다. 해당 튜토리얼에서 느낀 점은 점점 프레임워크가 발전하고 있어 산업에서 딥러닝 지식이 별로 없는 전문가도 큰 노력 없이 더욱 쉽게 고성능 모델들을 구현하고 이용할 수 있겠다는 생각이었습니다. 산업공학 전공자로서 이러한 시대의 흐름에 어떤 역할을 해야 할지에 대한 고민을 더욱 치열하게 해야겠다는 생각을 하게 되었습니다.

4일간 진행된 main conference는 주로 논문의 저자가 발표를 진행하는 oral session과 포스터 발표를 진행하는 poster session으로 이뤄져 있었습니다. 생각했던 것 이상으로 발표자와 포스터가 많아 정신이 없었습니다. Oral session과 poster session에서 봤던 인상깊었던 논문 몇 가지에 대해 소감을 작성해보겠습니다.

[SinGAN: Learning a Generative Model from a Single Natural Image]

이번 ICCV의 best paper로 선정된 논문입니다. SinGAN은 한 장의 이미지를 input으로 받아 이로부터 다양한 결과물을 도출합니다. 핵심은 이미지 한 장에 대해서 여러 patch를 이용하는 것입니다. 저자에 따르면 이러한 방법을 사용하면 단일 이미지에서도 충분한 정보를 얻을 수 있다고 합니다. 결과물을 보면 그림 한 장을 통해서 image painting, super-resolution, animation 생성 등 다양한 task에 대해서 기존의 모델들보다 뛰어난 성능을 보입니다. 최근에는 다양한 데이터가 더욱 높은 퀄리티의 결과물을 낸다는 것이 당연시되고 있는데 이를 정면으로 반박한 굉장히 도전적이며 기발한 아이디어라고 생각합니다. 거기에 높은 성능까지 보였으므로 best paper에 충분히 선정될 만한 논문이라고 생각합니다. 최근 적은 dataset에 대해 잘 작동하도록 하는 zero-shot learning과 transfer learning에 대해 굉장히 관심이 많은데 해당 논문의 아이디어를 응용해봐야겠다는 생각이 들었습니다.

[CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features]

또 다른 인상깊었던 논문은 Naver Clova에서 나온 cutmix였습니다. 해당 논문은 cutmix라는image augmentation 방법을 제안합니다. Cutmix는 앞서 singan과 같이 image patch를 활용한 방법입니다. 해당 방법에서는 한 이미지의 일부분을 다른 이미지에서 따온 patch로 대체합니다. 그 후 patch 크기의 비율에 따라 label을 조정합니다. 이러한 방법으로 기존에 많이 쓰이는 이미지 augmentation방법 중 하나인 Mixup보다 높은 성능을 달성합니다. 굉장히 직관적인 아이디어와 이로부터 얻어진 놀라운 성능이 인상적인 논문이었습니다. 개인 연구를 하며 Augmentation 부분에 대해서는 지금까지 큰 신경을 쓰지 않고 모델의 구조를 개선하는 데만 집중했습니다. 하지만 본 논문을 비롯해 ICCV에서 본 다양한 Augmentation 방법들을 보며 이러한 부분 또한 많은 집중을 기울일 필요가 있다는 사실을 깨달을 수 있었습니다. 또한 본 논문에서 인상깊었던 것 중 하나는 포스터 발표 시 청중들에게 저자분들이 적극적으로, 그리고 굉장히 잘 와 닿게 설명하는 점이었습니다. 이러한 발표 자세 또한 본받을 점이 많았습니다.

[VideoBERT: A Joint Model for Video and Language Representation Learning]

작년부터 자연어처리 분야에서 각광을 받고 있는 BERT는 이제 자연어처리 뿐만 아니라 다양한 분야에서도 활용되고 있습니다. 이번 ICCV에도 어김없이 BERT를 이용한 논문이 몇 가지 등장했습니다. 그 중에서 가장 인상깊었던 것은 VideoBERT라는 논문입니다. 기존 BERT는 두가지 문장을 input으로 이용합니다. 그리고 두 문장 간의 relationship을 next sentence prediction이라는 목적함수를 통해 학습합니다. VideoBERT에서는 이러한 두 가지 문장을 이용하는 방식에서 문장 하나를 동영상으로 대체합니다. 그 후 기존 BERT 모델의 Pretraining처럼 Masked language model을 수행하는데 동영상 input의 경우 frame을 masking해서 앞, 뒤 frame을 통해 해당 frame을 예측하는 방식을 이용합니다. 이렇게 pretrain된 모델을 통해 zero shot action classification에 높은 성능을 이룩하였고 captioning task에 대해 transfer learning을 하였을 때도 높은 성능을 보였습니다. 동영상이라는 sequential한 데이터의 특징을 기존 BERT에 잘 녹여낸 논문이라고 생각했고 새삼 BERT의 위력을 한 번 더 깨달을 수 있었습니다.

학회를 참가하며 가장 크게 느껴졌던 것은 세상에는 정말 많은 능력 있고 열정 넘치는 연구자들이 있으며 그러한 연구자들이 항상 열린 자세로 있다는 것입니다. 포스터 세션을 돌아다니며 많은 사람들이 저자들에게 궁금한 점을 하나하나 질문하며 자기 것으로 흡수하는 모습을 보며 그러한 자세들을 본받아야 겠다고 생각했으며 저도 조금이라도 궁금한 점이 있을 때마다 저자들에게 질문을 했습니다. 비록 컴퓨터 비전을 주로 연구하지는 않지만 이번 학회를 통해서 많은 점을 배울 수 있었고 굉장히 큰 자극을 받을 수 있었습니다. 학회비를 지원해주신 교수님께 감사드리며 이번 경험을 발판 삼아 더욱 열심히 연구에 매진하도록 하겠습니다.
전체 0

전체 181
번호 제목 작성자 작성일 추천 조회
12
2019 International Conf. on Computer Vision - 천우진
관리자 | 2020.03.12 | 추천 0 | 조회 107
관리자 2020.03.12 0 107
11
2019 International Conf. on Computer Vision - 이정호
관리자 | 2020.03.12 | 추천 0 | 조회 59
관리자 2020.03.12 0 59
10
2019 International Conf. on Computer Vision - 정민성
관리자 | 2020.03.12 | 추천 0 | 조회 56
관리자 2020.03.12 0 56
9
2019 International Conf. on Computer Vision - 최종현
관리자 | 2020.03.12 | 추천 0 | 조회 109
관리자 2020.03.12 0 109
8
2019 International Conf. on Computer Vision - 서승완
관리자 | 2020.03.12 | 추천 0 | 조회 60
관리자 2020.03.12 0 60
7
2019 International Conf. on Computer Vision - 최희정
관리자 | 2020.03.12 | 추천 0 | 조회 105
관리자 2020.03.12 0 105
6
2019 International Conf. on Computer Vision - 양우식
관리자 | 2020.03.12 | 추천 0 | 조회 111
관리자 2020.03.12 0 111
5
2019 International Conf. on Computer Vision - 이정훈
관리자 | 2020.03.12 | 추천 0 | 조회 450
관리자 2020.03.12 0 450
4
2019 International Conf. on Computer Vision - 박중민
관리자 | 2020.03.12 | 추천 0 | 조회 87
관리자 2020.03.12 0 87
3
2019 International Conf. on Computer Vision - 김형석
관리자 | 2020.03.12 | 추천 0 | 조회 111
관리자 2020.03.12 0 111

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.