Patrick's 데이터 세상

논문 정리 - EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks 본문

Deep Learning/Paper

논문 정리 - EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

patrick610 2023. 1. 4. 11:48
반응형
SMALL

 

 

https://arxiv.org/abs/1901.11196

 

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

We present EDA: easy data augmentation techniques for boosting performance on text classification tasks. EDA consists of four simple but powerful operations: synonym replacement, random insertion, random swap, and random deletion. On five text classificati

arxiv.org

 

 

소개

Text classification은 NLP에서 기초가 되는 task이다.

ML/DL은 감정 분류에서 토픽 분류의 작업에서 높은 정확성을 달성했지만 높은 성능은 종종 훈련 데이터의 크기와 질에 따라 의존되며 수집하기 지루한 경우가 많다.

자동 데이터 증가는 일반적으로 CV(Computer Vision), 음성에서 일반적으로 사용되고 특히 더 작은 데이터셋을 사용할 때 더 강력한 모델을 훈련하는데 도움이 된다.

그러나, 언어 번역을 위한 일반화된 규칙을 제시하는 것은 어렵기 때문에 NLP에서 보편적 데이터 증진 기술은 충분히 탐구되지 않았다.

이전 연구에서 NLP에서 데이터 증진을 위한 여러 기술이 제안되었다.

하나의 인기 있는 연구는 문장을 프랑스어를 번역하고 다시 영어로 번역하여 새로운 데이터로 생성했다.

다른 연구에서 유의어 교체를 위한 예측 언어 모델과 평활화로써 데이터 노이징을 사용되었다.

 

위 표에서 각 작업에 따른 문장 생성 방식을 볼 수 있다.

SR(Synonym Replacement), RI(Random Insertion), RS(Random Swap), RD(Random Deletion)

비록 이러한 기술이 유용할지라도, 성능 획득은 높은 비용이 들기 때문에 그들은 연구에서 자주 사용하지 않았다.

 

이 논문에서는 EDA(Easy Data Augmentation)라고 불리는 일반적인 NLP data augmentation 기술의 단순 셋을 제안한다.

논문에서는 5개의 벤치마크 분류 작업에서 체계적으로 EDA를 평가하고 EDA가 특히 작은 데이터셋에서 유용하고 모든 다섯 개의 작업에서 상당한 개선을 제공한다는 것을 보여준다.

 

 

EDA

논문에서 저자는 작은 데이터셋에서 훈련된 텍스트 분류기의 빈약한 성능에 좌절하고 컴퓨터 비전에서 사용되는 것과 느슨하게 영감을 받은 여러 가지 증강 작업을 테스트했으며 더 강력한 모델을 훈련하는데 도움이 된다는 것을 발견했다.

1. Synonym Replacement (SR): 불용어가 아닌 문장에서 n개의 임의로 선택한다. 이러한 각 단어를 무작위로 선택한 동의어 중 하나로 교체한다.

2. Random Insertion (RI): 불용어가 아닌 문장에서 임의의 단어의 임의의 동의어를 찾는다. 문장에서 임의의 위치에 그 동어를 넣는다. 이것을 n회 시행.

3. Random Swap (RS): 문장에서 임의로 두 단어를 골라서 그들의 위치를 바꾼다. 이것을 n회 시행.

4. Random Deletion (RD): 문장에서 각 단어를 확률 p로 임의로 제거

짧은 문장보다 많은 단어를 갖기 때문에 긴 문장은 원본 클래스 레이블을 유지하면서 많은 노이즈를 흡수할 수 있다.

이를 보상하기 위해 아래 공식을 사용하여 문장 길이 l을 기준으로 SR, RI, RS에 대해 변경된 단어 수 n을 변경한다.

여기서 α는 단어의 백분율을 나타내는 매개변수이다.

문장이 변경된다.(RD에 p=α 사용)

또한 각 원래 문장에 대해 naug 증강 문장을 생성한다.

이전에 동의어 대체가 사용되었지만(Kolomiyets et al., 2011; Zhang et al., 2015; Wang and Yang, 2015), 무작위 삽입, 교환 및 삭제는 광범위하게 연구되지 않았다.

 

실험 환경

Benchmark Datasets

SST-2: Stanford Sentiment Treebank (Socher et al., 2013)

CR: customer reviews (Hu and Liu, 2004; Liu et al., 2015) SUBJ: subjectivity/objectivity dataset (Pang and Lee, 2004)

TREC: question type dataset(Li and Roth, 2002)

PC: Pro-Con dataset(Ganapathibhotla and Liu, 2008). 또한, EDA 적은 데이터셋에서 효율적이라고 가설을 세우고 Ntrain={500. 2.000. 5.000. all available data}로 전체 훈련 세트의 무작위 하위 집단을 선택하여 다음 크기의 데이터셋을 위임한다.

Text Classification Models

텍스트 분류에서 인기 있는 두 모델을 실험했다.

  1. RNN(Recurrent Neural Networks) 연속형 데이터에 적합.
  2. CNN(Convolutional Neural Networks) 또한 텍스트 분류에서 높은 성능을 이뤘다.

 

결과

CNN, RNN의 다섯개의 NLP task에서 EDA를 테스트한다.

EDA Makes Gains

 

 

평균 성능(%)은 훈련 세트 크기에 따라 증가하는 것을 볼 수 있다.

 

Training Set Sizing

과대적합은 더 작은 데이터셋을 훈련할 때 심각한 경향이 있다.

모든 벤치마크에서 EDA가 일반 데이터셋 보다 더 좋은 성능을 나타낸다.

사용 가능한 훈련 데이터에서 50%를 사용하여 평균 정확도가 88.6%를 냈다.

 

절대 연구 : EDA 분해

Pro-Con 데이터셋에서 원래 문장과 증강 문장의 잠재 공간 시각화.

보강된 문장(작은 삼각형, 작은 원)은 원본 문장(큰 삼각형, 큰 원)을 밀접하게 둘러싸며, 이는 보강된 문장이 진정한 클래스 레이블을 유지했음을 보여준다.

 

SR 동의어 대체는 이전에도 사용되었지만 (Kolomiyets et al., 2011; Zhang et al., 2015; Wang and Yang, 2015)

다른 세 가지 EDA 작업(RI, RS, RD)은 아직 탐색되지 않았다.

위 표를 통해 EDA 작업 모두 성능 향상에 기여하는 것을 알 수 있다.

SR은 문장에서 너무 많은 단어를 바꾸면 문장의 정체성이 바뀔 수 있으므로 작은 α에서는 개선이 좋으나 높은 α에서 성능 손상시킨다.

RI은 다른 α에 대해 성능 향상이 안정적이었는데 원래 단어와 상대적 순서가 이 작업에서 유지되었기 때문.

RS는 α≤0.2에서 높은 성능 이득을 보여주지만 너무 많은 스왑은 문장 전체 순서를 섞는 것과 같기 때문에 α≥0.3에서 감소했다.

RD는 낮은 α에서 가장 높은 이득을 얻었지만 최대 절반의 단어가 제거되면 문장을 이해할 수 없기 때문에 높은 α에서 성능이 심각하게 손상된다.

전반적으로 α=0.1이 ‘sweet spot’임.

 

 

결론

데이터 증강에 대한 이슈는 ML/DL을 접하는 사람들의 공통적인 고민일 거라 생각한다.

이 논문에서는 단순 데이터 증가 작업이 텍스트 분류 작업에서 성능을 가속화할 수 있음 보여주었다.

비록 성능이 미미할 때도 있지만 EDA는 성능을 크게 향상하고 더 작은 데이터셋에서 훈련할 때 과대적합을 줄인다.

이 주제에서 연속된 작업은 EDA 작업의 이론적 토대를 탐구할 수 있다.

 

 

 

 

 


참고 논문

 

https://arxiv.org/abs/1901.11196

 

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

We present EDA: easy data augmentation techniques for boosting performance on text classification tasks. EDA consists of four simple but powerful operations: synonym replacement, random insertion, random swap, and random deletion. On five text classificati

arxiv.org

 

반응형
LIST
Comments