[Paper Review] ICNet for Real-Time Semantic Segmentation on High-Resolution Images

Paper Review
작성자
Yunseung Lee
작성일
2021-02-19 17:11
조회
175
1. Topic

segmentation 성능 저하는 최소화하며, inference 속도를 real time 수준으로 향상시키고자 Image Cascade Network(ICNet) 를 제안합니다.

2. Overview

기존 semantic segmentation 모델들은 inference 속도가 매우 느리기 때문에 실제 application에 적용하기 힘들다는 한계점을 갖습니다. 특히 정확도 측면에서 큰 발전이 있었던 Pyramid Scene Parsing Network(PSPNet) 은 약 80% mIOU 성능을 보이지만, 속도는 0.78 fps 에 그칩니다.

이에 저해상도 이미지에 heavy CNN을 적용하여 real time 수준으로 속도를 향상시키고, Cascade Feature Fusion을 통해 성능 저하를 최소화 하고자 하는 Image Cascade Network를 제안하였습니다.

3. 발표자료 및 발표영상
  • 발표 자료: 첨부파일 참고
  • 발표 영상: 업로드 예정
4. 참고자료

첨부파일 참조
전체 10

  • 2021-04-01 20:59

    오늘 세미나는 semantic segmentation 방법론 중 하나인 IC-Net에 대한 내용으로 이루어졌습니다. semantic segmentaion은 pixel-wise classification으로, 개별 instance를 구별하지는 않고, class 별로만 분류하는 task입니다. CNN의 feature map을 그대로 쓰기에는 픽셀별로 예측해야 하는 semantic classification에는 적합하지 않아 좀 더 dense feature map을 얻기 위해서 upsampling을 사용합니다. upsampling 방법에는 bilinear interpolation, transpose convolution, dilated convolution 등이 있습니다. PSPNet은 ResNet에 Dilated layer를 넣어 feature map의 사이즈가 layer가 깊어져도 유지될 수 있게하여 높은 resolution을 달성할 수 있게 됩니다. ICNet은 PSPNet을 베이스라인으로 하여 PSPNet의 좋은 성능을 최대한 유지하면서 시간을 최대한 단축한 모델입니다. 이를 위해 저해상도 이미지에만 heavy CNN을 적용하고, 이로 인해 성능이 떨어지는 것을 방지하기 위해서는 cascade feature fusion을 사용합니다. 이렇게 CFF를 사용함으로써 semantic 정보를 최대한 보존하며, low branch에서 놓친 세부정보를 모두 포함할 수 있게 됩니다. 이로써 ICNet은 정확도를 어느 정도 유지하면서 real-time 수준으로 빠른 속도를 달성하였습니다. 라즈베리 파이를 사용하여 직접 real-time segment classification 하려는 시도가 매우 좋은 것 같습니다. 좋은 결과가 있길 바라겠습니다. 좋은 발표 감사합니다.


  • 2021-02-21 16:36

    이번 세미나에서는 Segmentic segmentation에 대한 ICNet에 대해서 발표해 주셨습니다. 해당 task는 해당 픽셀이 object 인지 아닌지 구별한 class agnostic에 대한 내용이 아닌 개별 픽셀마다 target class 마다 categorization에 대한 설정으로 이루어졌습니다. PSP-net의 핵심구조는 여러개의 dilated conv를 사용하여 이미지 표현의 high resolution의 향상을 목표로 한것 같습니다. 추가적으로 1x1 conv를 사용하여 가로x 세로의 사이즈는 유지하되 채널에 의한 high dimension의 문제를 해결하고자 하는 면도 보였습니다. PSP-Net의 성능은 매우 뛰어나지만 inference 속도가 너무 느려 IC-Net이 제안이 되었습니다. IC-Net의 모델을 입력 이미지크기에 따라 다른 모델들을 연결시킴으로써 저해상도에서 고해상도로 boosting과 같은 효과를 가지도록 하였습니다. 이렇게 되면 이미지 크기에 따라 모델의 성능이 바뀌는 점에서도 robust해지는 효과도 발생되었다고 생각합니다. 좋은 발표 감사합니다.


  • 2021-02-22 16:44

    금일 세미나 시간에는 ICNet for Real-time Semantic Segmentation on High-Resolution Images의 논문을 주제로 Computer Vision분야에서 Semantic Segmentation task에 해당하는 내용을 다루어 보았습니다. Semantic Segmentation은 이미지로부터 모든 픽셀에 해당하는 Class로(사전에 정의된 개수만큼) 분류하는 것입니다. 해당 논문에서의 ICNet은 Image Cascade Network의 약자로 실시간 처리에서 강점을 가지기 위한 해당 네트워크의 특징을 잘 표현하고 있습니다. Input으로부터 연속적인 cascade feature를 결합을 통해서 최종적인 feaure map을 구성하게 되고, 이과정에서 Upsampling과 dilated convolution을 사용하였습니다. 또한, 학습과정에서의 각 branch 단계에서의 안정적인 학습을 위해서 Loss를 최종 단에서만 계산하는 것 뿐만 아니라 각 중간단계에서도 각각의 Loss를 산출하여 이를 가중치를 통해 결정하여 학습을 수행하였습니다(Cascade Label Guidance). 아무래도 cascade한 구조에서 단순 최종단계에서의 손실함수만을 적용한 것보다 실험적으로 나은 성능을 거두었기에 이러한 학습방식을 수행한 것으로 해석됩니다. 실제로 결과에서는 이러한 CLG의 유무에 따라 성능의 차이를 보이는 것을 확인하였습니다. 간만에 Vision 관련 논문을 연구실 세미나를 통해서 접할 수 있어 재미있게 잘 들었습니다. 발표자가 첫 세미나임에도 불구하고 꼼꼼하게 준비를 잘해주어 부드럽게 이해해가며 들을 수 있었습니다. 감사합니다.


  • 2021-02-22 20:08

    ㅤ오늘 세미나는 Semantic Segmentation 성능을 올린 PSPNet과, PSPNet의 속도를 개선시킨 ICNet에 발표였습니다. 먼저 Semantic Segmentation은 pixel-wise classification으로 같은 class의 물체가 있더라고 개별 object에 대해서는 고려하지 않는 task입니다. 기본적인 sematic segmentation은 encoder-decoder의 모델 구조를 가지며 encoder단에서 이미지의 정보를 축약하여 feature map을 얻고, decoder단에서는 up-sampling과 residual connection을 통해 각각의 픽셀에 대한 classification을 수행하게 됩니다. 하지만, 기존 semantic segmentation 모델들은 일반적인 convolution layer를 통해 데이터를 encoding하게 되면 context 정보 부족으로 인한 pixel 분류성능이 하락한다는 점이었습니다.
    ㅤ이를 극복하기 위해 제안된 방법이 바로 PSPNet으로 pyramid pooling module을 추가하여 다양한 사이즈의 CNN 필터에 대한 정보를 함께 사용하여 rich context를 포함한 feature map을 만들고 이를 통해 pixel classification을 하는 것이었습니다. 그리고 이때 좀 더 넓은 공간의 정보를 학습하기 위해 사용한 dilated ResNet을 사용했다고 합니다. 하지만, PSPNet은 고해상도일수록 시간복잡도가 지수적으로 증가한다는 문제가 있었습니다.
    ㅤPSPNet의 한계를 극복하기 위해 나온 모델이 ICNet으로 저해상도 이미지에는 PSPNet을 적용하여 rich semantic information을 추출하고, 고해상도 이미지는 적은 conv 연산을 통해 학습한 정보를 CFF(Cascade Feature Fusion with Cascade Label Guidance)를 통해 효율적으로 합쳐주게 됩니다. 이 과정을 통해 rich segmentation 정보를 학습하여 좋은 성능을 낼 뿐만 아니라 inference 속도가 매우 빠르게 될 수 있게 해주었습니다. 좋은 발표 들려주셔서 감사합니다.


  • 2021-02-26 01:13

    비전 도메인 세미나라서 너무 반가운 마음에 잘 들었습니다. segmentation의 정말 꾸준하게 발전이 되고 있는 분야같습니다. 그럼에도 불구하고 아직 굉장히 빠르면서 굉장히 정확한 모델은 나오지 않고 있으며 trade-off가 존재하고 있습니다. 본 논문에서도 성능에서는 그 당시 SOTA가 아니었지만, 속도대비 성능에서 매우 좋은 모습을 보였습니다. Segmentation의 경우 보통 매우 큰 사이즈의 인풋을 사용하기 때문에 real time inference가 어렵게 되는데, 본 연구에서는 casecade input을 사용하여 이를 해소하고 있습니다. 우선 작은 사이즈의 input을 사용하여 깊은 모델을 적은 cost로 학습을 진행합니다. 이렇게 대략적인 정보를 얻은 후 조금씩 큰 사이즈의 이미지를 조금씩 작은 모델에 넣음으로써 정확도는 높이고 time cost는 줄이게 됩니다. 매우 직관적이고 논리적으로 반박하기 어려운 접근이라는 생각이 들었습니다.
    진행하고 있는 개인연구도 이러한 방식에서 시작해 real time으로 탐지할 수 있다면 충분히 가능성 있는 주제가 될 것 같다고 생각합니다.


  • 2021-02-26 17:59

    금일 세미나에서는 Semantic Segmentation 방법론 중 하나인 ICNet에 대해 설명해 주셨습니다. 해당 논문은 큰 receptive field로 때문에 속도가 느린 이전 논문 PSP-Net의 단점을 해결하고자 성능 저하 최소화하면서 real-time 속도를 최대화 하는 모델을 제시하였습니다. 해당 논문에서 속도를 향상시키기 위하여 저해상도의 이미지에만 heavy CNN을 적용하였습니다. 또한 저해상도의 이미지에만 heavy CNN을 적용했을때 성능 하락하는 단점을 극복하고자 Cascade Feature Fusion을 적용하였습니다. 이 두가지 방법을 통해 실시간으로 Semantic Segmentation이 가능하면서도 높은 정확도를 갖추었다는 것을 실험적으로 증명하였습니다. 모델의 성능도 중요하지만 제품으로 활용하기 위해서는 inference 속도도 매우 중요합니다. 따라서 ICNet과 같은 속도를 고려한 논문이 필요하다고 생각합니다. 좋은 발표 감사합니다.


  • 2021-03-02 00:22

    비전 분야에 대해 오랜만에 세미나를 들은 것 같아 굉장히 흥미로웠습니다. 오늘 소개해주신 논문은 IC-Net에 관한 논문으로, real-time segmentation 모델인 PSP-Net의 속도 면에서의 한계를 개선하고자 제안된 모델입니다. IC-Net의 모델 구조는 U-Net과 유사하나 해상도에 따른 이미지 인풋을 추가하고 FPN과 같은 구조를 더하여 일정 수준의 성능을 내면서도 속도가 real-time에 가까운 모델인 것 같습니다. Cascade 구조가 동화 선배가 소개했던 cascade-rcnn과 같이 이미지 정보를 인식하는 데에 굉장히 효과적인 구조라고 생각되며, segmentation 분야가 적용 분야가 많으면서도 속도가 굉장히 중요하다고 생각하는만큼, 앞으로 이러한 연구가 활발히 진행될 것이라고 생각합니다. 앞으로도 좋은 논문 소개와 연구 기대하겠습니다. 깔끔한 발표 감사합니다.


  • 2021-03-07 17:04

    본 세미나에서는 Pixel별로 분류를 수행하는 Semantic Segmentation 기법 중 대표적인 PSPNet과 ICNet에 대해 설명하였습니다. PSPNet은 mIOU, Pixel 정확도 면에서 성능이 좋지만, 해상도, Channel 크기가 증가할 수록 시간복잡도가 지수적으로 증가해 속도가 매우 느려진다는 단점이 있습니다. 이를 극복하기 위하여 ICNet에서는 저해상도에만 무거운 CNN인 PSPNet-50을 사용하고, 고해상도에서는 Conv 연산을 적게 수행합니다. 개별적 Conv에서 도출된 Feature Map을 Aggregate하여 Coarse Prediction을 보강하는 것이 ICNet의 주요 절차이며 이를 통해 적은 성능 저하와 높은 속도 향상을 이룩하게 됩니다. 또한 논문에서는 Feature Map 크기 감소, Kernel 개수에 따라 성능 하락과 속도 향상의 수준을 비교하는 실험도 제시하였습니다. Vision은 항상 어렵게 느껴지지만, 앞으로 많이 배우도록 하겠습니다. 좋은 발표 감사합니다.


  • 2021-03-15 16:38

    Instance segmentation이 같은 클래스에 속한 다른 객체도 각각 구분하여 분류를 수행한다면, semantic segmentation은 같은 클래스 내의 객체를 동일하게 인식하고 분류를 수행합니다. 발표 초반에 개념에 대해 명확하게 정의해주셔서 이해할 수 있었습니다. Real-time 류의 task는 yolo 등이 수행하는 detection만 있는 줄 알았는데 segmentation task에서도 real-time 구현이 가능하다는 주장을 보고 새삼 빠른 발전속도를 체감할 수 있었습니다. Segmentation에서는 픽셀 별로 분류를 수행하기 때문에 coarse한 feature map만으로는 객체 간 경계를 구분하기 어렵기 때문에 bilinear interpolation과 dilated convolution을 사용한다고 이해하였습니다. 발표에서는 PSPNet과 ICNet을 소개해주셨는데, 많은 vision task에서 pyramid 구조를 차용하는 것을 본 적이 있어 흥미롭게 들었습니다. ICNet은 성능을 약간 희생하여 고해상도 이미지에서 PSPNet의 무거운 연산량을 줄이는 방법으로 학습을 수행합니다. 이에 따라 성능의 감소를 최소화하는 것이 중요한 이슈일텐데, 제안된 cascade feature fusion은 작은 이미지도 큰 이미지와 어느정도 공유하는 feature가 존재한다는 사실을 잘 이용한 트릭인 것 같습니다. 발표 잘 들었습니다.


  • 2021-03-22 18:06

    금일 발표는 "ICNet for Real-Time Semantic Segmentation on High-Resolution Images"라는 주제로 진행되었습니다. 본 발표에서는 저해상도 이미지에 heavy CNN을 적용하여 real time 수준으로 segmentation의 속도를 향상시키고 Cascade Feature Fusion을 통해 성능 저하를 최소화한 Image Cascade Network가 소개되었습니다. 먼저 저희 연구실에서는 segmentation 관련 방법론들이 소개된 적이 적기 때문에 관심을 가지고 발표를 청취하였습니다. 본 논문에서 인상적이었던 점은 기존 방법론들의 한계점을 기반으로 문제를 잘 정의하고 이를 해결하기 위한 방법들을 잘 명시했다는 점이었습니다. 더불어 저해상도의 rich semantic 정보와 low branch에서 놓친 boundary와 같은 세부 정보 모두 포함하기 위해 사용한 Cascade Feature Fusion도 인상적이었습니다. 특히 이 부분은 multiresolution을 사용하는 이상치 탐지 모델에도 적용 가능할 것 같다는 생각이 들어 더 흥미로웠습니다. 좋은 발표 감사합니다.


전체 129
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1222
관리자 2020.03.12 0 1222
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 448
관리자 2020.03.12 0 448
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 990
관리자 2020.03.12 0 990
126
[Paper Review] Deep GNNs (3)
Hyungseok Kim | 2021.04.16 | 추천 0 | 조회 33
Hyungseok Kim 2021.04.16 0 33
125
[Paper Review] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (3)
Takyoung Kim | 2021.04.13 | 추천 0 | 조회 45
Takyoung Kim 2021.04.13 0 45
124
[Paper Review] Uninformed Students: Student–Teacher Anomaly Detection with Discriminative Latent Embeddings (4)
Hyeyeon Kim | 2021.04.07 | 추천 0 | 조회 83
Hyeyeon Kim 2021.04.07 0 83
123
[paper Review] Contrastive Learning for Sequential Recommendation (4)
Jungho Lee | 2021.04.03 | 추천 0 | 조회 121
Jungho Lee 2021.04.03 0 121
122
[Paper Review] Deep Image Retrieval: Learning global representations for image search (5)
Kyoosung So | 2021.03.31 | 추천 0 | 조회 94
Kyoosung So 2021.03.31 0 94
121
[Paper Review] Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations (6)
Jounghee Kim | 2021.03.24 | 추천 0 | 조회 149
Jounghee Kim 2021.03.24 0 149
120
[Paper Review] Time Series Anomaly Detection with Multiresolution Ensemble Decoding (6)
Heejeong Choi | 2021.03.23 | 추천 0 | 조회 133
Heejeong Choi 2021.03.23 0 133
119
[Paper Review] QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension (8)
Jina Kim | 2021.03.19 | 추천 0 | 조회 164
Jina Kim 2021.03.19 0 164
118
[Paper Review] SOM-DST  : Efficient Dialogue State Tracking by Selectively Overwriting Memory (7)
Yukyung Lee | 2021.03.13 | 추천 0 | 조회 185
Yukyung Lee 2021.03.13 0 185
117
[Paper Review] A Simple Framework for Contrastive Learning of Visual Representations (10)
Donghwa Kim | 2021.03.10 | 추천 0 | 조회 255
Donghwa Kim 2021.03.10 0 255

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.