2019 한국데이터마이닝학회 춘계학술대회 - 서승완

데이터마이닝학회
작성자
관리자
작성일
2020-03-12 13:44
조회
46

2019년 4월 광주에서 열리는 산업공학회에 참석할 것이라 예상하고 있었지만, 지난번과 마찬가지로 데이터 마이닝 학회에 참석하였다. 산업공학을 공부하는 입장에서 산업공학회에 참석하는 것 또한 큰 의미를 가지는 것이 분명하나 조금 더 세분화 되어 산업공학 안에서도 비슷한 분야를 연구하는 사람들이 모여 있는 데이터 마이닝 학회를 참석하는 것 또한 큰 의미를 가진다. 이번 데이터 마이닝 학회는 4월 11일 코엑스에서 ‘사례를 통해 본 AI & BI’ 라는 이름으로 개최 되었다.

 

지금까지 참석해 온 학회들과 가장 큰 차이점이 있었다면 바로 기업의 참여가 아닐까 생각한다. 코엑스 그랜드볼룸과 연결된 복도에 부스를 설치하고 각 사의 솔루션을 홍보하는가 하면, 오전 세션에서는 여러 좋은 말씀들과 함께 직접 회사의 솔루션을 홍보하고 기술력을 자랑하는 시간을 가지기도 하였다. 지금 당장은 학생 신분으로 크게 관련이 없을 수도 있으나 회사에 가서 실무를 하다 보면 저러한 부분들이 (대게 불편하니 솔루션을 만들어 판매하는 것이 아닐까?) 부족하고 필요 하구나 라는 생각이 들었다. 여담이지만 금융권에서 일하는 학부 동기도 팀장님과 함께 학회에 참석해서 여러 연구들을 듣고 공부하는 시간을 가졌다. 인공지능에 가장 보수적이라 알려진 금융권도 최근에는 관심을 가지고 자체적으로 기술력을 가지기 위하여 투자를 하고 있다는 소식 또한 전해 들으며 쓰이지 않는 분야가 없구나 생각했다. 오후 세션 또한 대학원에서 공부하는 분들의 연구 성과를 발표하는 자리와 함께 여러 기업에서도 발표를 진행하는 multi-track 방식으로 진행 되었다.

 

(오전 세션이 끝나고 간만에 안암에서 벗어나 맛있는 식사를 할 수 있어서 기분이 썩 좋았다.)

 

오후에는 같은 분야를 공부하는 분들의 연구 성과에 대해서 들을 수 있었다. 관심있는 발표가 모두 104호에서 진행되어 마지막 발표까지 모두 같은 공간에서 들었다.

[인공신경망 및 딥러닝 응용] 이라는 이름으로 열린 첫 번째 세션의 첫 발표는 RCNN을 통하여 motion-context attention에 관한 연구였다. Pose estimation의 모델은 대체로 파라미터의 수가 많아 embedded로 사용하는데 제약이 있다. 이러한 한계를 완화하기 위하여 연구자는 pose estimation에서 연속적인 두 프레임 사이에는 상당한 연관성이 있다 라는 가정을 설정한다. Dataset 자체에 갑자기 scene이 변경되는 구간이 없다면 위의 가정이 매우 직관적이라 흥미로웠다. 이러한 가정을 통하여 첫 번째 프레임에서 pose가 잡히는 부분에 bounding box를 지정하고 해당 BB를 attention이라 정의한다. 일반적으로 사용되는 attention의 정의와 본 연구에서 명명한 attention의 개념이 조금 달라 듣는 사람들에게 다소 혼란을 줄 여지가 있다고 생각했다. 공식적인 자리에서 제안하는 연구를 소개할 때, 이름을 잘 지어야 한다는 사실을 새삼 느끼는 순간이었다. 아이디어는 흥미로웠지만 아직 실험이 진행중이라 결과를 볼 수 없는 점이 아쉬웠다.

두 번째 발표는 태풍을 식별하는 모델을 구축하는 연구에 관한 것이었다. 기본적으로는 faster R-CNN의 anchor개념을 차용하여 태풍을 식별하게 되는데 input을 구성하기 위한 연구자의 고민이 엿보이는 연구였다. 단편적인 이미지 뿐만 아니라 적외, 수증기, 단파적외에 대한 정보를 담은 채널을 구축하여 어떠한 채널 조합이 모델 성능을 높이는지 실험을 진행 한 점이 좋았으며, 과정에서 정확히 맞춘 경우만 정답을 맞췄다고 보는 것이 아니라 weighted F1 score를 통하여 비슷하게 맞춘 경우에도 어느정도 잘 맞췄다고 봄으로써 이산적인 class를 다소간 연속적으로 변형 하는 부분도 합당하게 보였다.   

세 번째 발표는 인공신경망의 weight 초기화에 관한 연구였다. 사실 He initialization 과 Xavier initialization 이후에 크게 연구가 되고 있는줄 몰랐으나 발표자의 말에 의하면 여전히 많이 연구가 되고 있다고 한다. 제안하는 방법론에 대하여 수학적으로 온전히 이해하지 못하였지만 normal distribution에서 작은 확률이지만 양 끝 값을 초기화 값으로 지정할 수 있다는 관찰과 이를 해결하는 truncated normal distribution을 활용하는 방식, 그리고 truncated Cauchy distribution을 활용하는 방식은 흥미로웠다. 정말 끝이 나는 연구 분야가 없구나 라는 생각이 드는 발표였다.

마지막 발표는 우리 연구실에서 진행하였다. 사실 프로젝트 내용도 옆에서 듣고 발표도 여러번 들어서 그런지 굉장히 매끄럽게 발표를 들었다고 생각하였으나, 발표 후에 이루어진 질문에서 처음 듣는 사람을 이해가 어려울 수도 있겠다 라는 생각이 들었다. 매 발표 모두가 이해할 수 있는 발표를 목표로 해야겠다고 다짐 했다.

 

[CNN과 RNN]이라는 이름으로 진행된 두 번째 세션의 첫 번째 발표는 진폐증 환자를 판별하는 CNN 모델을 구축하는 연구에 관련된 것이었다. 우선 성모 병원과 함께 프로젝트를 진행하여 의료 데이터가 굉장히 많음이 놀라웠고 부러웠다. 또한 사람의 건강(혹은 생명)이 달려있는 문제인 만큼 확정적으로 이상을 분류하는 모델을 제안하는 것이 아니라 layer visualization을 통하여 전문가가 사용할 보조 자료를 생성한다는 목적도 옳은 방향이라는 생각을 하였다. 발표의 마지막 부분에 발표자가 말한 data augmentation이 모델 입장에서 noise를 생성하는 일이지 않을까 라는 의심은 충분히 함께 고민해볼 문제가 아닐까 라는 생각이 들었다.

두 번째 발표는 conv-LSTM을 통하여 태풍의 최대 풍속을 예측하는 연구였다. 태풍이란 시간 정보를 지니고 있기 마련인데 기존의 연구들에서는 이러한 시간 정보를 활용하는 내용이 없었기에 이를 해결하고자 하였다. 산업공학도의 입장에서 아직 최적의 모델이 사용되고 있지 못한 분야에 해당 도메인에 더 적합한 모델을 제안한는 것 또한 매우 의미 있음을 다시금 깨닫는 발표였다.

 

[텍스트마이닝 및 감성분석] 세션의 첫 발표는 인천공항공사 공항연구소에서 2018년 인천공항 트렌드 분석 엔진 연구에 관한 것 이었다. 우선 인천공항에 공항 연구소가 있음이 놀라웠고 무엇보다 PPT가 매우 예뻐서 보기에 좋았다. 연구 자체는 일년 동안 네이버에서 인천공항에 관련된 뉴스와 블로그 텍스트를 크롤링하여 데이터를 구축하였고 그 위에 TF-IDF를 적용하고 감성 사전을 이용하여 주요 키워드에 대한 감성 분석 및 시각화를 진행하였다. TF-IDF를 사용하였지만 원하는 만큼 단어들이 필터링 되지 않음을 아쉬워하시는 모습을 보고 사람이 필터링 한 것과 비슷한 결과가 나올 수 있는 단어 추출 알고리즘을 고민하는 것도 재미있으면서도 꼭 필요한 연구가 될 것 같다는 생각을 했다.

두 번째 발표는 여러 텍스트 감성 분석 모델을 비교 실험하는 연구에 관한 것이었다. 현재 영어 리뷰 데이터를 통하여 동일한 구조의 논문을 작성하고 있는 입장에서 매우 흥미로운 발표였다. 가장 핵심이 되는 아이디어는 각 자소를 채널로 만들어 3 채널의 input을 만든 점이다. 이는 한글의 특수성을 고려하면서도 시퀀스를 해치지 않는 매우 좋은 아이디어라는 생각이 들었다. 다만 3 채널의 input을 통하여 자소 단위의 음절 input을 가지면서도 사용한 비교 모델들은 모두 word-level input이 target인 점이 조금 아쉬웠다. 아마 character-level이 target인 텍스트 감성 분석 모델을 사용 했더라면 조금 더 좋은 성능이 나오지 않았을까? 라는 생각이 들었다.

 

전체적으로 매우 흥미롭고 재미있는 학회였다. 개인적으로 언젠가 하게 될 학회 혹은 연구실 세미나 (스터디) 발표에서 보다 좋은 발표를 위해 집중하며 보며 느낀 점은 발표의 톤과 호흡이 좋더라도 발표자가 사용하는 모니터만 본다거나 청중들이 보는 대형 화면만 보며 슬라이드를 읽는 발표는 생각보다 청중이 집중하는데 어려움을 준다는 것이다. 또한 학회를 반복해서 참석하며 많은 발표를 들어볼수록 왜 지도 교수님께서 내부적으로 발표를 매우 꼼꼼하게 점검해 주시는지 조금씩 이해하게 되는 것 같다.

다음 학회에서는 꼭 발표를 하고싶다는 생각을 하였다.

 

전체 0

전체 181
번호 제목 작성자 작성일 추천 조회
101
2019 한국데이터마이닝학회 춘계학술대회 - 김동화
관리자 | 2020.03.12 | 추천 0 | 조회 75
관리자 2020.03.12 0 75
100
2019 한국데이터마이닝학회 춘계학술대회 - 김준홍
관리자 | 2020.03.12 | 추천 0 | 조회 103
관리자 2020.03.12 0 103
99
2019 한국데이터마이닝학회 춘계학술대회 - 이정훈
관리자 | 2020.03.12 | 추천 0 | 조회 203
관리자 2020.03.12 0 203
98
2019 한국데이터마이닝학회 춘계학술대회 - 최종현
관리자 | 2020.03.12 | 추천 0 | 조회 91
관리자 2020.03.12 0 91
97
2019 한국데이터마이닝학회 춘계학술대회 - 노영빈
관리자 | 2020.03.12 | 추천 0 | 조회 125
관리자 2020.03.12 0 125
96
2019 한국데이터마이닝학회 춘계학술대회 - 양우식
관리자 | 2020.03.12 | 추천 0 | 조회 84
관리자 2020.03.12 0 84
95
2019 한국데이터마이닝학회 춘계학술대회 - 서승완
관리자 | 2020.03.12 | 추천 0 | 조회 46
관리자 2020.03.12 0 46
94
2019 한국데이터마이닝학회 춘계학술대회 - 조규원
관리자 | 2020.03.12 | 추천 0 | 조회 86
관리자 2020.03.12 0 86
93
2019 한국데이터마이닝학회 춘계학술대회 - 손규빈
관리자 | 2020.03.12 | 추천 0 | 조회 48
관리자 2020.03.12 0 48
92
2019 한국데이터마이닝학회 춘계학술대회 - 송서하
관리자 | 2020.03.12 | 추천 0 | 조회 59
관리자 2020.03.12 0 59

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.