2019 International Conf. on Computer Vision - 양우식

ICCV
작성자
관리자
작성일
2020-03-12 13:54
조회
111

10월 27일(일) ~ 11월 2일(토) 기간 동안 가장 권위 있는 conference 중 하나인 ICCV가 서울에서 열렸습니다. Tutorial 부터 main session까지 참여하고 싶었지만 공교롭게도 부상을 당해 많은 세션에 참여하지 못했다는 점이 아쉬움으로 남습니다. 그러나 내노라하는 각국 연구자들의 발표와 포스터를 통해 그들의 노력을 학회장에서 느낄 수 있었고 무엇보다도 제가 공부하고 있던 분야에 대해서 최신 트렌드를 선구하는 사람들의 발표 모습을 보면서 많은 자극을 받는 계기가 되었습니다. 이 기분을 잊지 않고 계속해서 발전하여 다음에는 저 또한 의미 있는 발표를 하고싶다는 생각을 하게 되었습니다. 좋은 기회를 제공해주신 교수님께 다시 한번 감사드립니다.

건강 상의 문제로 많은 세션에 참가하지 못했지만 가장 기억에 남았던 workshop의 내용을 소개하고자 합니다.

[Scene Graph Representation and Learning]

Graph Representation 을 통해서 Visual learning을 해결하는 workshop이었습니다. Grpah Representation에서부터 Scene understanding으로, 또 최종적으로는 Visual Question Answering으로 이루어지면서 저의 관심분야와 맞아 재밌게 들었습니다.

- Beyond a self-sufficient pixel tensor : Modeling external knowledge and internal image structure

위 발표에서는 scene representation에서 외부 지식이 도움이 될지에 대해서 다루었습니다. 특히 Graph representation을 통한 이미지 캡셔닝 task를 다루었는데, 기존 이미지 캡셔닝의 경우에는 주어진 데이터에만 적합하게 학습이 되기에 새로운 데이터가 주어졌을 경우 좋은 성능을 보이지 못한다는 점을 강조했습니다. 본 연구에서는 이미지 캡셔닝을 수행할 때 빈칸을 생성해서 검출된 객체를 사용하기에 객체만 바꾸면 다양하게 사용할 수 있고 따라서 강건한 이미지 캡션 생성이 가능하다는 점을 보여주었습니다. 자연스럽게 현실 문제에 적용이 가능하게 novel한 객체를 다룬 이미지 캡셔닝 예시를 보여주었고 이미지 캡셔닝을 위해 기존에 데이터에는 잘 없는 현실 데이터를 추가한 데이터셋을 소개하였습니다. 해당 데이터셋은 nocaps.org에서 받을 수 있습니다.

- Vil-bert

위 발표는 VQA의 발전 과정을 다루면서 최근 본인들의 연구 성과인 Vil-bert를 소개하였습니다. VQA는 이미지와 자연어를 모두 다루는 multimodal task로 기존에는 이미지를 핸들링 하는 모델과 질문을 핸들링하는 모델을 따로 구축하여 임베딩된 결과를 가지고 문제를 해결했습니다. Vil-bert는 이미지와 질문 모두에 대한 multimodal representation을 위해 자연어처리의 대세 모델인 BERT기반 방법론을 모방한 모델입니다. 이미지와 질문을 모두 활용하여 VQA만을 위한 representation을 구축하였고 높은 성능을 보였음을 보여주었습니다. 특히 해당 발표의 발표자는 제가 코드 공부를 하는데 많이 참고하고 있는 박사과정 학생이었는데 항상 깃허브에서만 보던 사람이 실제로 앞에 나와서 발표하는 모습을 보면서 신기하고 또 많은 자극이 되었습니다.

- Visual Commonsense Reasoning

VCR, 즉 visual commonsense reasoning은 문답 task에 있어서 딥러닝 모델인 인간처럼 사고하는 방식을 유사하게 학습하기 위해 새롭게 제안된 데이터셋입니다. 인간이 질문에 대한 정답을 내리는 데에는 이유가 필요하며 그 이유는 대부분 모두에게 타당하게 간주됩니다. 이렇게 타당하게 간주되는 이유를 상식으로 볼 수 있는데 VCR 데이터셋은 이처럼 딥러닝 모델이 상식을 학습할 수 있도록 데이터셋을 구성하였습니다. 기존의 VQA 데이터셋이 질문과 이미지만 주어졌다면 VCR 데이터셋은 이미지와 문장으로 이루어진 객관식 문제, 그리고 정답을 선택하게 된 이유까지로 구성되어 있습니다. 따라서 모델은 Q->A, QA->R, Q->AR 측면의 학습을 유도할 수 있습니다. 본 발표는 university of washington의 최예진 교수님께서 진행하였는데 굉장한 약력의 소유자셨습니다. 인공지능 모델의 발전을 위해 본인이 사유한 과정과 결과물을 발표하시는 모습에서 너무나도 멋지다는 생각이 계속 들었습니다.

[Taking a hint : Leveraging Explanations to make Vision and Language Models More Grounded]

Visual & Language 세션 쪽에 있던 포스터였습니다. 사람이 실제 문제를 풀때 집중하는 부분이 human attention map이며 이를 기본적인 VQA 모델 구조에 적용하여 모델이 사람의 실제 문제 해결 부분과 유사하게 집중하도록 만들었습니다. 저자의 설명을 들으면서 여러 질문도 했는데, 특히 요즘에는 개인 gpu보다는 서버를 구축하여 최소 V100을 사용하여 모델을 학습했다는 점이 인상깊었습니다.

전체 0

전체 181
번호 제목 작성자 작성일 추천 조회
12
2019 International Conf. on Computer Vision - 천우진
관리자 | 2020.03.12 | 추천 0 | 조회 106
관리자 2020.03.12 0 106
11
2019 International Conf. on Computer Vision - 이정호
관리자 | 2020.03.12 | 추천 0 | 조회 59
관리자 2020.03.12 0 59
10
2019 International Conf. on Computer Vision - 정민성
관리자 | 2020.03.12 | 추천 0 | 조회 55
관리자 2020.03.12 0 55
9
2019 International Conf. on Computer Vision - 최종현
관리자 | 2020.03.12 | 추천 0 | 조회 108
관리자 2020.03.12 0 108
8
2019 International Conf. on Computer Vision - 서승완
관리자 | 2020.03.12 | 추천 0 | 조회 59
관리자 2020.03.12 0 59
7
2019 International Conf. on Computer Vision - 최희정
관리자 | 2020.03.12 | 추천 0 | 조회 103
관리자 2020.03.12 0 103
6
2019 International Conf. on Computer Vision - 양우식
관리자 | 2020.03.12 | 추천 0 | 조회 111
관리자 2020.03.12 0 111
5
2019 International Conf. on Computer Vision - 이정훈
관리자 | 2020.03.12 | 추천 0 | 조회 449
관리자 2020.03.12 0 449
4
2019 International Conf. on Computer Vision - 박중민
관리자 | 2020.03.12 | 추천 0 | 조회 86
관리자 2020.03.12 0 86
3
2019 International Conf. on Computer Vision - 김형석
관리자 | 2020.03.12 | 추천 0 | 조회 110
관리자 2020.03.12 0 110

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.