2019 International Conf. on Computer Vision - 최종현

ICCV
작성자
관리자
작성일
2020-03-12 13:55
조회
109

국제적으로 유명한 컴퓨터 비전 학회인 ICCV가 한국에서 진행되었습니다. 학회 첫날인 Tutorial부터 많은 사람들이 몰려 다시금 유명한 학회라는 것을 실감할 수 있었습니다. 컴퓨터 비전(Computer Vision, CV)에 대해서는 제대로 공부하거나 진행한 프로젝트가 없어서 세계적인 학회에 대한 분위기를 경험 해보고자 하는 마음이었지만, 막상 학회에 참석하게 되니 많은 것들을 느낄 수 있었습니다.

[Tutorial: Everything You Need to Know to Reproduce SOTA Deep Learning Models]

ICCV2019 첫날에 참석했던 SOTA에 대한 모델들을 어떻게 구성하고, 재현할 것인지에 대한 내용을 주제로 진행한 튜토리얼이었습니다. 해당 튜토리얼은 MXNet을이용하여 CV와 관련한 SOTA모델들을 효율적으로 구현하는 방법들을 Jupyter Notebook을 통해 설명해 주었습니다.

딥러닝 프레임워크인 MXNet에 대해 알고는 있었지만 사용해본적은 없었는데, Gluon이라는 모듈은 PyTorch와 TensorFlow와 비교하여 CV에 대하여 전처리 뿐만 아니라 다양한SOTA pre-trained 모델을 클래스 형태로 제공하고 매우 편리하게 SOTA모델을 사용할 수 있다는 점이 인상적이었습니다.

 

[Few-Shot Adaptive Gaze Estimation]

해당 논문을 통해 CV 분야 중에 사람의 시선(Gaze)을 Estimation하는 연구주제도 있다는 것을 알게 되었습니다. 본 논문은 취리히 대학의 박선욱 연구원과 NVIDIA가 함께 연구가 진행되었습니다.

사람 개개인의 시선은 해부학적으로 서로 다르기 때문에 이러한 데이터셋으로 학습을 하고, 다른 사람의 Gaze Estimation에 대한 오류를 낮추는 데 있어서 한계가 있습니다. 기존의 연구는 이러한 오류를 낮추기 위해 많은 양의 가중치 파라미터를 가지는 모델을 사용하였지만, 이 또한 Overfitting 되는 문제가 있다고 지적합니다. 해당 논문은 매우 적은 9장의 소규모 데이터셋을 가지고 Gaze Estimation하는 Encoder-Decoder 구조를 통해 rotation-aware latent representation을 학습 모델인 FAZE(Few-shot Adaptive gaZe Estimation)를 제안하였습니다.

[What is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis]

해당 논문은 NAVER Clova에서 진행하였으며, OCR과 같은 Scene Text Recognition(STR)과 관련된 연구였습니다. 기존의 연구들에서는 새롭게 제안한 STR 모델에 대하여 각기 서로 다른 데이터셋에 대하여 모델을 비교하여 뚜렷하게 어떤 모델의 성능이 더 좋은지에 대한 비교가 힘들다는 문제가 있었습니다. 본 논문은 기존의 STR 모델들에 대하여 동일한 데이터셋을 가지고, 성능, 시간, 메모리 사용률 등에 대한 비교를 진행하였습니다. 이를 통해, 어떠한 모델이 어떤 데이터 셋에서 더 성능이 좋은지를 비교할 수 있게 되었습니다.

교수님께서 늘 말씀하셨던 것처럼, 새로운 방법론이나 모델을 제안하는 것도 중요하지만, 누구나 한번쯤은 생각하지만, 귀찮은 Task에 대해 누군가 먼저 연구를 한다면, 그것 또한 좋은 연구주제가 될 수 있다는 말씀이 와 닿는 논문이었습니다.

 

[Context-Aware Emotion Recognition Networks]

본 논문은 Emotion Recognition에 대한 연구였습니다. 기존의 Emotion recognition은 사람의 얼굴에서 나타나는 감정의 표현만을 사용하여 감정을 분석하는 연구가 대부분이었습니다.

본 연구는 사람의 얼굴(Face) 뿐만 아니라 Context 정보 또한 사용하여 감정을 분석하는 CAER(Context-Aware Emotion Recognition) 네트워크를 제안하였습니다. 사람의 얼굴 feature를 인풋으로 받아들이는 subnetwork와 context정보를 받아들이는 subnetwork의 concatenate를 통해 사람의 감정을 분류하는 모델을 구성하였습니다.

본 연구에서 인상적이었던 부분은 해당 모델을 분석하기 위해 직접 데이터셋을 수작업으로 하나하나 만들었다는 부분이었습니다. 다만, 아쉬웠던 부분은 해당 데이터셋이 미국의 대표적인 시트콤인 프렌즈를 가지고 만든 데이터셋이어서 감정 표현이 과장되게 드러나는 시트콤에 대해서 실험을 진행한 부분이 실험결과가 좋게 나타난게 아닌가 하는 생각이 들었습니다.

 

이번 ICCV2019를 통해 Image Classification만 경험했던 저로서는, 다양한 분야와 연구주제가 있다는 것을 알게 되어서 유익했습니다. 그리고 새로운 모델을 제안하는 것도 중요하지만, 기존의 모델이나 연구들 중에서 누구도 하지 않은 부분에 대해 연구를 진행하는 것도 좋은 연구주제가 될 수 있다는 것을 배울 수 있었습니다.

전체 0

전체 181
번호 제목 작성자 작성일 추천 조회
12
2019 International Conf. on Computer Vision - 천우진
관리자 | 2020.03.12 | 추천 0 | 조회 107
관리자 2020.03.12 0 107
11
2019 International Conf. on Computer Vision - 이정호
관리자 | 2020.03.12 | 추천 0 | 조회 59
관리자 2020.03.12 0 59
10
2019 International Conf. on Computer Vision - 정민성
관리자 | 2020.03.12 | 추천 0 | 조회 55
관리자 2020.03.12 0 55
9
2019 International Conf. on Computer Vision - 최종현
관리자 | 2020.03.12 | 추천 0 | 조회 109
관리자 2020.03.12 0 109
8
2019 International Conf. on Computer Vision - 서승완
관리자 | 2020.03.12 | 추천 0 | 조회 59
관리자 2020.03.12 0 59
7
2019 International Conf. on Computer Vision - 최희정
관리자 | 2020.03.12 | 추천 0 | 조회 105
관리자 2020.03.12 0 105
6
2019 International Conf. on Computer Vision - 양우식
관리자 | 2020.03.12 | 추천 0 | 조회 111
관리자 2020.03.12 0 111
5
2019 International Conf. on Computer Vision - 이정훈
관리자 | 2020.03.12 | 추천 0 | 조회 449
관리자 2020.03.12 0 449
4
2019 International Conf. on Computer Vision - 박중민
관리자 | 2020.03.12 | 추천 0 | 조회 86
관리자 2020.03.12 0 86
3
2019 International Conf. on Computer Vision - 김형석
관리자 | 2020.03.12 | 추천 0 | 조회 111
관리자 2020.03.12 0 111

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.