[Paper Review] Deep Image Retrieval: Learning global representations for image search

Paper Review
작성자
Kyoosung So
작성일
2021-03-31 06:44
조회
94
1. Topic
Triplet network와 RPN(Region Proposal Network)을 이용하여 image retrieval 성능을 개선하는 방법론을 제안

2. Overview
논문이 쓰여질 당시 image retrieval은 주로 ImageNet 데이터 등에 classification task를 위해 pretrained 된 CNN을 그대로 이용하였는데, 이것이 retrieval 성능을 개선하는 데에 있어서 걸림돌이 됨을 지적합니다. 이에 대해 triplet network를 이용하여 retrieval task에 specific한 CNN을 다시 한 번 학습(finetuning)하는 방법을 제안하였고, 나아가 RPN을 통해 image retrieval에 있어서 이미지의 중요한 부분(instance)을 위주로 representation을 추출하는 방법을 제안합니다.

Triplet network를 통한 학습이 기존 CNN을 그대로 이용(off-the-shelf)하는 것에 비해 훨씬 개선된 성능을 보여줬으며, RPN 또한 representation을 만드는 데에 효과적임을 실험으로 증명하였습니다.

3. 참고 논문
[Main] http://arxiv.org/abs/1604.01325
[Sub] https://arxiv.org/pdf/1511.05879 (R-MAC)

4. 발표 자료: 첨부파일

5. 발표 영상:  [업로드 예정]
전체 5

  • 2021-03-31 11:11

    금일 세미나에선 Image Retrieval에 대한 내용을 다루었으며, 기본적인 절차는 Query Image에 대한 Representation을 계산한 뒤, DB 내에 존재하는 다른 데이터들과의 유사도를 구하여 높은 Rank의 데이터를 Retrieve하는 것입니다. 절차를 만족하기 위해 Representation, 또는 Feature를 추출해야 하기에 MAC, R-MAC과 같은 방법이 사용되며, 이는 이미지를 Pretrained CNN을 통과시켜 Feature Map을 생성한 뒤 Max Pooling을 통과시켜 진행합니다. 하지만 Pretrained CNN은 분류 Task에 특화되었기에, 해당 CNN으로 추출한 Feature는 Inter-Class 구분은 잘하지만, Intra-Class의 Variability는 담기가 힘들어 Retrieval Task에서는 성능이 비교적 저조한 성적을 보입니다. 따라서, R-MAC Feature를 추출하며 Triplet Network를 사용하여 Retrieval에 맞는 모델을 구축하려는 것이 세미나 본 논문의 의의 였으며, 이는 Anchor와 Positive와의 거리는 최소, Negative와의 거리는 최대가 되도록 목적을 설정합니다. Image Retrieval의 개괄, 모델, 그리고 현재 Off-the-shelf보다 CNN Finetuning이 더 강세를 보이는 분야의 특징까지 잘 정리해주신 좋은 발표였습니다. 감사합니다.


  • 2021-03-31 14:33

    이번 세미나에서는 image retrieval를 목적으로 MAC, triple loss기법에 대해서 소개해 주셨습니다. MAC 방법은 feature map에 각 채널별로 가장 큰값을 가져와 vector 형태로 변환해 줍니다. 해당 방법론은 이미지 검색의 기본이 되는 것 같습니다. R-MAC의 방법도 설명해주셨는데 MAC의 방법을 local (국소적) 범위를 잘 잡히도록 정보손실을 줄이는 것 같습니다. 거리를 측정할때 L2-normalization, whitening PCA는 변수별 scale이 다를 수 있기 때문에 필수적으로 수행되어야 합니다. 이러한 descriptor를 만드는 방법 object에 대한 feature map으로 세분화해서 정의하게 되면 많은 활용이 이루어지는 것 같습니다. 전처리 관련된 내용은 이미지를 다양한 scale의 형태로 변환한후 gaussain blur를 적용하게 됩니다. 그 다음으로 scale이 서로 다른 변환된 map의 차이를 edge로 간주하여 hog(histogram of gradient)의 방법을 사용한 keypoint형태로 전처리하게 됩니다. 이 keypoint의 blob을 잘 포함하도록 init boudning box를 생성하게 됩니다. 해당 init boudning box를 보다 정밀하게 만들기 위해서 affine transformation을 사용한 RPN을 사용하였고, 최종적으로 MAC방식을 제안하였습니다. 좋은 발표 감사합니다.


  • 2021-03-31 15:58

    오늘 세미나 발표 논문은 Deep Image Retrieval: End-to-end learning of deep visual representations for image retrieval입니다. Image Retrieval은 추출된 query의 descriptor와 database의 descriptor 간 유사도로부터 rank를 계산하여 관련된 이미지를 반환해줍니다. 이미지 representation 추출방법으로 MAC과 R-MAC에 대한 방법이 설명이 되었는데, MAC과 R-MAC과 달리 본 논문에서는 retrieval specific 하며 이미지에서 중요한 특징점만을 잘 추출할 수 있는 기법을 도입한 모델을 제시하였습니다. 먼저 triplet mining을 사용하여 negative example의 수준을 구분하고, 거리가 가까운 negative sample을 학습에 이용하였고, rigid grid로 학습된 모델을 freeze하여 RPN을 적용하는 방식으로 Bbox를 학습하였습니다. 또한, 본 논문에서는 clean 데이터의 중요성을 말하며 SIFT 방식을 활용해 회전 불변한 이미지, 특징점이 유사한 이미지들만 학습에 활용을 하였고, 특히 특징점을 기반으로 Bbox를 affine matrix를 활용한 iteration을 사용하였다는 점이 인상깊었습니다. 이 모델에는 다양한 기존의 여러 기법들이 적재적소에 잘 활용된 것 같은데, 이런 각 기법들을 발표자분께서 이해가 잘 가도록 하나씩 쉽게 설명해주셔서 더욱 재미있게 들을 수 있었습니다. 발표 잘 들었습니다.


  • 2021-04-01 17:00

    오늘 세미나는 image retrieval을 위한 MAC, R-MAC 모델을 개선한 Deep image reitreval 논문에 대한 내용으로 진행되었습니다. pre-trained CNN을 사용하는데, 이때 retrieval에 specific하게 pre-training하는 것이 성능에 중요한 영향을 미치고, 기존 R-MAC의 rigid grid 방식은 중요하지 않은 부분도 포함시키게 됩니다. 따라서 이 논문에서 제안하는 모델은 triplet을 network를 사용해 retrieval specific하게 학습하고, rgid grid 방식 대신 faster RCNN의 region proposal network를 사용해 중요한 부분에 집중할 수 있게 하는 방법으로 성능을 개선시키고자 했습니다. 또한 기존에 따로 PCA를 수행하던 부분을 dense layer로 완전히 대체해 end-to-end학습이 가능하게 만들었습니다. 처음 접해보는 분야였는데 상세히 설명해주셔서 이해에 많은 도움되었습니다. 좋은 발표 감사합니다.


  • 2021-04-07 17:30

    오늘 세미나에서는 Image retrieval과 관련된 논문 두개를 소개해 주셨습니다. 첫번째 논문인 Particular object retrieval with integral max-pooling of CNN activations는 image retrieval을 수행하는 데 있어서 필요한 image representation을 뽑기 위한 R-MAC 방식을 제안하였습니다. 두번째 논문 Deep Image Retrieval: End-to-end learning of deep visual representations for image retrieval은 classification task를 위해 pertained 된 CNN을 retrieval task에 적용하는 것의 문제점을 지적하면서, triplet loss를 활용한 retrieval에 특화된 임베딩 학습을 제안하였습니다. 즉 classification task에 학습이 된 CNN은 이미지의 임베딩 자체를 클래스 간에 민감하도록 학습하나, instance-level의 retrieval은 클래스 내부적으로도 instance 간 거리를 멀게 하는 학습이 필요하다는 것입니다. 추가적으로 faster RCNN에 사용되는 RPN 구조를 도입함으로써, retrieval에 중요한 지역 위주로 representation을 추출하고 최종적으로 instance 간 variant에 민감하도록 하는 파이프라인을 제시하였습니다. 시각적으로 뛰어난 발표자료여서 이해가 한층 쉬웠습니다. 감사합니다.


전체 129
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1222
관리자 2020.03.12 0 1222
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 447
관리자 2020.03.12 0 447
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 990
관리자 2020.03.12 0 990
126
[Paper Review] Deep GNNs (3)
Hyungseok Kim | 2021.04.16 | 추천 0 | 조회 33
Hyungseok Kim 2021.04.16 0 33
125
[Paper Review] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (3)
Takyoung Kim | 2021.04.13 | 추천 0 | 조회 45
Takyoung Kim 2021.04.13 0 45
124
[Paper Review] Uninformed Students: Student–Teacher Anomaly Detection with Discriminative Latent Embeddings (4)
Hyeyeon Kim | 2021.04.07 | 추천 0 | 조회 82
Hyeyeon Kim 2021.04.07 0 82
123
[paper Review] Contrastive Learning for Sequential Recommendation (4)
Jungho Lee | 2021.04.03 | 추천 0 | 조회 121
Jungho Lee 2021.04.03 0 121
122
[Paper Review] Deep Image Retrieval: Learning global representations for image search (5)
Kyoosung So | 2021.03.31 | 추천 0 | 조회 94
Kyoosung So 2021.03.31 0 94
121
[Paper Review] Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations (6)
Jounghee Kim | 2021.03.24 | 추천 0 | 조회 149
Jounghee Kim 2021.03.24 0 149
120
[Paper Review] Time Series Anomaly Detection with Multiresolution Ensemble Decoding (6)
Heejeong Choi | 2021.03.23 | 추천 0 | 조회 133
Heejeong Choi 2021.03.23 0 133
119
[Paper Review] QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension (8)
Jina Kim | 2021.03.19 | 추천 0 | 조회 164
Jina Kim 2021.03.19 0 164
118
[Paper Review] SOM-DST  : Efficient Dialogue State Tracking by Selectively Overwriting Memory (7)
Yukyung Lee | 2021.03.13 | 추천 0 | 조회 185
Yukyung Lee 2021.03.13 0 185
117
[Paper Review] A Simple Framework for Contrastive Learning of Visual Representations (10)
Donghwa Kim | 2021.03.10 | 추천 0 | 조회 255
Donghwa Kim 2021.03.10 0 255

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.