[Paper Review] Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations

Paper Review
작성자
Jounghee Kim
작성일
2021-03-24 21:25
조회
150
[ 발표 요약 ]

1. Topic

Self-Supervised Learning of Discrete Speech Representations(VQ-Wav2vec)

2. Overview

이번 세미나에서는 음성 도메인에서 사용 가능한 self-supervised 방법론 중 하나인 VQ-Wav2vec에 대해 설명합니다. 해당 논문에서는 기존 Self-supervised 방법론과는 다르게 Vector Quantization 모듈을 추가하여 Discrete representation을 출력할 수 있도록 아키텍처를 변경합니다. 그리고 추출한 Discrete Representation을 BERT, Transformer와 같은 아키텍처의 입력으로 활용함으로써 음성 Sequence 안에 있는 패턴을 더 잘 학습할 수 있는 방법을 제시합니다. ASR task를 학습하기 위한 복잡한 Pipe-line을 갖고 있기 때문에 재현 가능성에 의문감이 들지만, 실험적으로 Vector Quantization 모듈을 추가한 모델과 논문에서 제시한 복잡한 Pipe Line이 음성인식 성능을 향상시키는데 큰 영향을 미친다는 것을 증명하였습니다.

3. 발표자료 및 발표영상

[1]  발표자료 (첨부파일 참고)
[2] 발표영상 [LINK]
 

4. 참고문헌

[1] Self-Supervised Learning of Discrete Speech Representations, 2020

[2] Neural Discrete Representation Learning, 2017

[3] Representation Learning with Contrastive Predictive Coding, 2018
전체 6

  • 2021-03-24 19:54

    VQ-Wav2vec에 대해서 발표해주셨습니다. MLM pre-training의 조건은 입력이 시퀀스의형태인 조건과 이산형태의 배열을 만족하여야합니다. 따라서 중간에 이산형 형태를 표현해주는 모듈이 필요합니다. 대안으로 Gumbel-softmax와 k-means clustering이 존재하였습니다. Gumbel-softmax는 0~1의 noise 값을 logit에 더해주고 temperature scaling을 하게 되면 categorical distribution를 묘사할 수 있었습니다. k-means clustering 또한 가장 가까운 centroid에 할당할수 있다는 점에서 적용할수 있는데 미분이 가능하도록 forward에서는 y를 그대로 보내고, backward계산에서 trainable x에 대해서 흘려보내도록 수식을 구성해 중간단계에서 discrete한 모듈도 gradient-based update가 가능하도록 제안하였습니다. VQ wav2vec에 BERT를 적용하는 구조는 임의로 생성된 token을 BERT의 훈련방식을 사용하는 구조를 이루어졌습니다. 해당 구조는 텍스트의 정보의 의미를 담고 있다기는 보다는 음성 feature를 임의의 토큰으로 설정하여 그 관계를 masking prediction 하는 내용인것 같습니다. 개인적으로 vq의 모듈과 dropout, relu 모듈을 추가했을때 보다 유의미한 성능 향상이 있어야 좋은 제안 방법론이지 않을 까 생각해봅니다. 좋은 발표 감사합니다.


  • 2021-03-25 12:06

    금일 세미나 주제는 vq wav2vec입니다. 기존의 방법론들이 음성을 연속적인 데이터로 활용을 했다면, 이 논문은 음성을 비연속적인 데이터로 변경하고 self-supervised learning을 적용합니다. 이 이산적인 데이터를 sequence model, BERT의 입력으로 사용하여 음성인식을 수행합니다. 본 논문에서는 중간에 이산적 데이터로 인한 미분 불가능 문제를 해결하기 위해 Gumbel-softmax 와 K-means clustering을 적용하여 연속형 데이터를 discrete representation으로 근사합니다. 이를 바탕으로 discrete sequence를 입력으로 하는 언어 모델과 호환이 가능하여, BERT의 MLM이 좋은 성능을 보였습니다. 데이터를 어떻게 embedding할 것인가에 따라 활용할 수 있는 모델의 범위가 달라진다는 부분이 인상깊었고, 새로운 모델에 대한 아이디어를 고민할 때, 새로운 시각에서의 데이터를 표현하는 방법도 고려할 수 있다는 것을 알게 되었습니다. 또한, 이전에 음성인식 모델에 관련해서 짧게 나마 공부했었는데, 이번 발표 덕분에 한번더 전반적인 모델 구조에 대해 이해해보며 정리해볼 수 있었습니다. 깔끔한 발표 감사합니다.


  • 2021-03-27 21:42

    본 세미나는 음성 데이터 분석에 대한 발표였으며 이 중, Wav2vec은 음성 데이터를 텍스트로 변환하는 ASR을 달성함에 있어 입력과 출력의 발화 위치가 정확하게 Align 되어 있는 데이터를 찾기 어렵기에, 데이터 특성을 활용해 학습하는 Self-Supervised Learning을 사용하는 기법을 말합니다. 이 때 데이터 특성은 음성 내 전반적으로 공유하고 있는 정보를 의미하며 거리가 있는 음성 데이터들끼리 서로 예측할 수 있다면 그들 사이에 존재하는 공유 정보를 학습할 수 있습니다. 그리고 Wav2Vec의 골자는 취하되 연속적인 음성 데이터를 비연속적인 데이터로 변경하여 훈련하는 것이 VQ(Vector Quantized)-Wav2Vec이며, 비연속 데이터로 변경하는 과정에 Gumbel Softmax와 K-Means 절차가 포함됩니다. 이후 음성 입력에 대하여 BERT의 MLM Training과 Transformer Encoder 아키텍처를 활용하여 Sequence 패턴을 추출하고자 합니다. 질문 했던 부분이 Language Model에 언어가 아닌 음성을 Input으로 사용해도 되는지에 대한 부분이었는데 이것이 가능하다면 모든 종류 Sequence Pattern mining에도 BERT가 사용될 수 있다고 생각되었습니다. 음성에 대한 양질의 발표 준비해주셔서 감사합니다.


  • 2021-04-01 20:54

    이번 세미나는 auto speech recognition을 위한 VQ-Wav2Vec 모델에 대한 내용으로 이루어졌습니다. 먼저, ASR은 음성을 인식해 text로 변환하는 것을 말합니다. 음성 데이터를 handcraft feature를 생성하고, 이를 사용해 acoustic model을 통해 ASR task를 해결하게 됩니다. 이때 handcraft feature를 사용하는 것은 domain nowledge가 필요하기 때문에 비용, 유지보수 등에서 문제가 생길 수 있으므로 모델로부터 feature를 추출하는 방법으로 대체하려는 방법이 제안되었습니다. 이를 위해 음성 데이터 내에서의 전반적인 정보를 추출하기 위해 self-supervised learning이 활용되었습니다. VQ-Wav2Vec은 음성을 Masked language model에 입력으로 넣어 sequence 안의 패턴을 추출하고자 하는 모델입니다. MLM pre-training을 위해서는 input이 sequence여야하고, 각각은 discrete한 형태여야 하기 때문에 Wav2Vec의 output을 discrete하게 만드는 과정이 추가됩니다. 음성 고유의 형태를 변형하여 input으로 사용한다는 점에서 인상 깊었습니다. 좋은 발표 감사합니다.


  • 2021-04-08 18:11

    VQ-Wav2vec은 Constractive Predictive Coding의 InfoNCE loss를 음성분야에 적용한 Self-Supervised 방법론 입니다. 해당 방법론은 이전 논문인 Wav2vec과는 다르게 Vector Quantization 모듈을 추가하여 Continouse 공간에서 표현된 벡터를 몇개의 대표값으로 치환할 수 있도록 설계되어 있습니다. 이 변경된 아키텍처를 활용하면 Discrete Representation을 입력으로 필요로 하는 Transformer, BERT 등의 아키텍처를 활용할 수 있는 장점을 갖고 있습니다. 또한 Vector Quntization 모듈을 사용함으로써 노이즈가 제거된 음성 Sequence 안에 있는 패턴을 더 잘 학습할 수 있는 장점을 갖고 있습니다. ASR Task에서 Vector Quntization을 사용하여 성능을 끌어올렸지만, 논문에서 제시한 Pipe Line은 3개의 모델을 차례로 학습해야 하기 때문에 재현성 측면에서 단점을 갖고 있습니다. 또한 Language Model에 따라 성능이 크게 변하는 것을 보면 성능이 크게 향상된 이유가 Vector Quntization 모듈보다는 Language Model 덕분으로 해석할 수 있습니다. 생소한 분야이지만 항상 좋은 발표 해주셔서 이해가 잘 됩니다. 앞으로도 좋은 세미나 그리고 좋은 개인연구 결과 기대하겠습니다.


  • 2021-04-13 04:18

    본 세미나는 VQ-Wav2vec에 대해 발표해주셨습니다. VQ-Wav2vec은 ‘음성’이라는 연속적인 데이터를 비 연속적인 데이터로 변환, 이를 self-supervised learning에 적용한 모델입니다. 연속 데이터인 ‘음성’ sequence 에서 패턴을 효과적으로 추출하기 위해 BERT의 Masked Language Model 방법론을 활용합니다. 이산적 시퀀스를 가져야 BERT모델을 활용할 수 있기에, 음성 데이터를 이산적으로 분해하고 이를 활용한 것으로 발표자분의 설명에 따라 이해할 수 있었습니다. 그리고 이러한 이산 변형을 위해 gumbel-softmax 와 k-means clustering 을 활용했습니다. 처음 떠올려보면, 연속적 데이터를 이산적 데이터로 어떻게 변형하는 가에 대한 막연한 의문이 많았는 데, 미분 불가능 문제, gradient flow문제 등을 해결해가는 과정을 구체적으로 설명해주셔서 이해를 높일 수 있었습니다. 더불어, 그동안 잘 알지 못했던 speech recognition 분야에 대해 서두에서부터 자세히 짚어주셔서 조금 더 쉽게 전체적인 발표 내용을 이해할 수 있었습니다. 좋은 발표 해주신 발표자님께 감사드립니다.


전체 129
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 1224
관리자 2020.03.12 0 1224
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 449
관리자 2020.03.12 0 449
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 990
관리자 2020.03.12 0 990
126
[Paper Review] Deep GNNs (3)
Hyungseok Kim | 2021.04.16 | 추천 0 | 조회 33
Hyungseok Kim 2021.04.16 0 33
125
[Paper Review] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (3)
Takyoung Kim | 2021.04.13 | 추천 0 | 조회 45
Takyoung Kim 2021.04.13 0 45
124
[Paper Review] Uninformed Students: Student–Teacher Anomaly Detection with Discriminative Latent Embeddings (4)
Hyeyeon Kim | 2021.04.07 | 추천 0 | 조회 83
Hyeyeon Kim 2021.04.07 0 83
123
[paper Review] Contrastive Learning for Sequential Recommendation (4)
Jungho Lee | 2021.04.03 | 추천 0 | 조회 121
Jungho Lee 2021.04.03 0 121
122
[Paper Review] Deep Image Retrieval: Learning global representations for image search (5)
Kyoosung So | 2021.03.31 | 추천 0 | 조회 94
Kyoosung So 2021.03.31 0 94
121
[Paper Review] Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations (6)
Jounghee Kim | 2021.03.24 | 추천 0 | 조회 150
Jounghee Kim 2021.03.24 0 150
120
[Paper Review] Time Series Anomaly Detection with Multiresolution Ensemble Decoding (6)
Heejeong Choi | 2021.03.23 | 추천 0 | 조회 133
Heejeong Choi 2021.03.23 0 133
119
[Paper Review] QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension (8)
Jina Kim | 2021.03.19 | 추천 0 | 조회 165
Jina Kim 2021.03.19 0 165
118
[Paper Review] SOM-DST  : Efficient Dialogue State Tracking by Selectively Overwriting Memory (7)
Yukyung Lee | 2021.03.13 | 추천 0 | 조회 185
Yukyung Lee 2021.03.13 0 185
117
[Paper Review] A Simple Framework for Contrastive Learning of Visual Representations (10)
Donghwa Kim | 2021.03.10 | 추천 0 | 조회 256
Donghwa Kim 2021.03.10 0 256

Data Science & Business Analytics Lab.
School of Industrial Management Engineering
College of Engineering, Korea University

Contact Us

  • 강필성 교수 (pilsung_kang@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 창의관 801A호 
  • 대학원 연구실 (총무 이유경: yukyung_lee@korea.ac.kr)
    서울특별시 성북구 안암로 145 고려대학교 자연계캠퍼스 신공학관 220호, 221호, 213호
© 2020 DSBA Lab.