Semantically Equivalent Adversarial Rules for Debugging NLP Models
2. Overview
자연어처리에서 Downsteam Task문제들이 다양하게 존재합니다. 감성분석, Q&A 등 이러한 문제에서 입력값이 조금 바뀌게 되면 그 결과가 너무 상이한 현상이 발생합니다. 예를들어 "밥 먹었어?"라는 질문에 답이 "응"이 나온다고 하면, "밥 먹었어??"라는 의미적으로 동등한데 입력이 살짝 다른 경우 답이 "아니"라고 나올수 있습니다. 이러한 flip된 현상을 Semantically(의미론적)으로 동일한데 결과가 정반대로 나오는 것을 Adversarial example이라고 지칭합니다. 이 논문은 텍스트 분야에서 이러한 Adversaries를 찾는 rule뿐만 아니라 그 정도를 score로 산출하여 Adversarial example를 찾고 이 데이터를 fine-tuning하여 실제 비즈니스에서 적용했는데 덜 모델의 민감성을 낮추는데 목적을 두고 있습니다
3. 발표자료 및 발표영상
[1] 발표자료
[2] 발표영상