Patrick's 데이터 세상

논문 정리 - BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 본문

Deep Learning/Paper

논문 정리 - BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

patrick610 2023. 2. 13. 23:30
반응형
SMALL

 

 

 

https://arxiv.org/abs/1910.13461

 

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-based

arxiv.org

 

 

 

NLP 논문의 추세가 sesame street 캐릭터인 ELMo(Embeddings from Language Model), BERT(Bidirectional Encoder Representations from Transformers)와 같이 애니메이션 캐릭터의 이름을 본떠서 만든다.

BART는 바트 심슨와 동일한 이름으로 Bidirectional Auto-Regressive Transformer의 약자로 이름 그대로 트랜스포머의 양방향 시퀀스 어텐션 메커니즘과 AR 자동회귀의 성격을 모두 띤 형태로 기존 Sequence to Sequence Transformer Model을 새로운 Pretraining Objective를 통해 학습하여 하나로 합친 모델이다.

 

 

초록

BART는 sequence-to-sequence 모델을 사전학습 하기 위한 노이즈 제거 자동 인코더이다.

BART는 임의의 노이즈 함수로 텍스트를 손상시키고, 원본 텍스트를 재구성하여 모델을 학습합니다.

표준 Transformer 기반 신경 기계 번역 아키텍쳐를 사용하며, 단순함에도 불구하고 BERT(양방향 encoder), GPT(왼쪽에서 오른쪽으로 이동하는 decoder) 및 기타 많은 최신 학습 체계를 일반화하는 것을 볼 수 있다.

논문에서는 원본 문장의 순서를 임의로 섞고 텍스트 범위가 단일 마스크 토큰으로 대체되는 새롭게 채우는 체계를 사용하여 최고의 성능을 찾는 몇몇의 노이즈 접근법을 평가한다.

BART는 특히 텍스트 생성을 미세조정할 때 효율적이지만 이해 작업에서도 잘 작동한다.

RoBERTa의 성능을 이것은 GLUE, SQuAD에 대한 유사 학습 리소스에 일치시키고 최대 6 ROUGE의 이득으로 다양한 다양한 추상화 대화, 질의응답 미 요약 작업에서 최첨단 결과를 달성한다.

BART는 또한 기계 번역을 위한 역번역 시스템에 비해 1.1 BLEU 향상을 제공하며 대상 언어 사전 교육만 제공합니다.

BART 프레임워크 내에서 다른 사전 교육 체계를 복제하는 제거 실험을 보고하여 최종 작업 성능에 가장 영향을 미치는 요소를 더 잘 측정합니다.

 

 

1. 소개

자기 지도 방식은 넓은 범위의 NLP 작업에서 뚜렷한 성공을 달성했다.

가장 성공한 접근법은 단어의 임의 하위 집합이 마스크 처리 한 텍스트를 재구성하도록 훈련된 노이즈 제거 자동 인코더인 마스크 언어 모델의 변형이었다.

이 논문에서 설명하는 BART는 양방향과 자동회귀 트랜스포머가 합친 사전 학습 모델이다.

BART는 매우 넓은 범위의 최종 작업에 적용 가능한 sequence-to-sequence 모델로 구축된 노이즈 제거 자동 인코더이다.

 

사전 훈련은 두 단계가 있는데, (1) 텍스트가 임의 노이즈 함수로 손상된다. (2) sequence-to-sequence 모델은 원본 텍스트를 재구성하여 학습된다.

BART는 단순성에도 불구하고 일반 BERT, GPT 및 기타 최신 사전학습 체계로 보여지는 일반 트랜스포머 베이스 신경 머신 번역 구조를 사용한다.

이 설정의 주요 이점은 노이즈의 유연성이다. 임의 변형은 길이 변형을 포함하는 원본 텍스트에 적용할 수 있다.

논문 연구팀은 무작위로 원본 문장의 순서를 섞는 것과 임의의 텍스트 길이(길이 0 포함)를 단일 마스크 토큰으로 교체하는 새로운 채움 체계 를 사용하여 최고의 성능을 찾는 여러 노이즈 접근법을 평가한다.

이 접근법은 모델이 전체 문장 길이에 대해 더 많이 추론하고 입력 값에 대해 더 많은 범위 변환을 수행하여 버트의 일반 단어 마스킹 및 다음 문장 예측 목표를 일반화한다.

BART은 텍스트 생성에 대한 미세 조정을 할 때 특히 효과 있지만 이해 작업에 대해서도 잘 작업한다.

이것은 GLUE, SQuAD에 대해 유사한 학습 리소스와 RoBERTa의 성능을 연결하고 추상화 대화, 질의응답 및 요약 작업의 범위에서 새로운 최첨단 결과를 달성했다.

 

예를 들어, XSum에 대한 이전 작업에 비해 6 ROUGE 성능이 향상됐다.

BART은 또한 미세 조정에 대한 새로운 사고 방식을 열어준다.

BART 모델이 적은 추가 트랜스포머 층위에 쌓이면서 기계 번역에 대한 새로운 체계를 제시한다.

이러한 층은 BART를 통한 전파를 통해 기본적으로 외국어를 노이즈가 있는 영어로 번역하도록 훈련되어 사전 훈련된 대상 측 언어 모델로 BART를 사용한다.
이 접근법은 WMT 루마니아어-영어 벤치마크에서 1.1 BLEU 만큼 강력한 역번역 MT 기준에 비해 성능을 향상한다.

이러한 효과를 더 잘 이해하기 위해 최근에 제안된 다른 훈련 목표를 복제하는 절제 분석도 보고한다.

이 연구를 통해 데이터와 최적화 매개변수를 포함한 여러 요인을 신중하게 제어할 수 있고 이는 훈련 목표 선택만큼 전반적인 성능에 중요한 것으로 나타났다.

논문 연구팀은 BART가 고려하는 모든 작업 범위에 걸쳐 가장 일관되게 강력한 성능을 나타낸다.

 

BERT / GPT

BART

인코더에 대한 입력을 디코더 출력과 정렬할 필요가 없으므로 임의의 노이즈 변환이 가능하다. 여기에서 텍스트 범위를 마스크 기호로 교체하여 문서가 손상된다. 왼쪽 손상된 문서는 양방향 모델로 인코딩 된 다음 오른쪽 원본 문서의 우도는 자동 회귀 디코더에서 계산된다. 미세 조정을 위해 손상되지 않은 문서가 인코더, 디코더 모두에 입력되며 디코더의 최종 은닉 상태의 표현을 사용한다.

 

 

 

2. 모델

BART는 손상된 문서를 파생된 원본 문서에 연결하는 노이즈 제거 자동 인코더이다.

손상된 텍스트에 대한 양방향 인코더와 왼쪽에서 오른쪽 방향의 자동회귀 디코더가 있는 sequence-to-sequence 모델로 구현된다.

사전 학습을 위해 원본 문서의 음수 로그 우도를 최적화한다.

 

2.1 구조

BART는 표준 sequence-to-sequence Transformer 구조를 사용한다. 단, GPT 다음에는 활성화 함수를 ReLU에서 GeLUs로 정의한  N(0, 0.02)로 부터 매개변수를 초기화한다.

우리의 기본 모델에 대해 인코더 및 디코더에서 6개 레이어를 사용하고 큰 모델에서는 각각 12개의 레이러를 사용한다.

그 구조는 다음과 같은 차이점을 제외하고 BERT에서 사용되는 아키텍처와 밀접하게 연관되어 있다. (1) 디코더의 각 레이어는 인코더(트랜스포머 sequence-to-sequence)의 마지막 은닉 층에 대해 교차 어텐션을 추가로 수행한다. (2) BERT는 단어 예측 전에 추가 feed-forward network를 사용하고 BART는 사용하지 않는다.

종합적으로 BART는 균일하게 사이즈 된 BERT 모델 보다 약 10% 더 매개변수를 포함한다.

 

2.2 사전 학습 BART

BART는 문서를 손상시킨 후 재구성 loss(디코더의 출력 값과 원본 문서 간의 cross-entropy)를 최적화하여 학습한다.

특정 노이즈 체계에 맞춰진 기존 노이즈 제거 자동 인코더와 달리, BART는 모든 유형의 문서 손상을 적용할 수 있다.

소스에 대한 모든 정보가 손실되는 극단적인 경우 BART는 언어 모델과 동일하다.

여러 사전에 제안된 최신인 변형을 실험하지만 다른 새로운 대안을 개발할 대한 특별한 잠재력이 있다고 믿는다.

 

실험하는 입력 노이즈에 대한 번환. 이러한 변환을 구성할 수 있다.

Token Masking

BERT에 이어 무작위 토큰이 샘플링되어 [MASK] 원소로 교체된다.

 

Token Deletion

무작위 토큰이 입력 값에서 삭제된다. 토큰 마스킹과 대조적으로 모델은 입력이 누락된 위치를 결정해야 한다.

 

Text Infilling

푸아송 분포(λ = 3)에서 가져온 범위 길이로 여러 텍스트 범위가 샘플링된다.

각 범위는 단일 [MASK] 토큰으로 대체된다. 길이가 0인 범위는 [MASK] 토큰 삽입에 해당한다.

텍스트 채움은 Span-BERT에서 영감을 받았지만 SpanBERT는 다른 분포의 길이에 걸쳐 있고 각 범위를 정확히 동일한 길이의 [MASK] 토큰 시퀀스로 대체한다.

텍스트 채움은 토큰이 범위에서 얼마나 많이 누락되는지를 예측하는 모델을 지도한다.

 

Sentence Permutation

문서는 마침표를 기준으로 문장을 나누고 이러한 문장은 랜덤 순서로 섞인다.

 

Document Rotation

토큰은 무작위로 균일하게 선택되고 이 토큰으로 시작하도록 문서가 회전된다. 이 작업은 문서의 시작을 식별하도록 모델을 훈련한다.

 

 

3. BART 미세 조정

BART로 생성된 표현은 다운스트림 애플리케이션을 위한 여러 방식으로 사용될 수 있다.

 

3.1 시퀀스 분류 작업

시퀀스 분류 작업을 위해 같은 입력 값은 인코더와 디코더로 공급되고 최종 디코더 토큰의 마지막 은닉 상태는 새로운 멀티 클래스 선형 분류기에 공급된다.

이러한 접근 방식은 BERT에서 CLS 토큰과 관련되었다. 그러나 디코더의 토큰에 대한 표현이 완전한 입력 값에서 디코더 상태로 첨부할 수 있도록 끝에 추가 토큰을 더했다.

분류 문제에 대해 BART를 사용하려면 같은 입력이 인코더와 디코더로 제공되고 마지막 output의 표현이 사용된다.

 

3.2 토큰 분류 작업

SQuAD에 대한 응답 끝지점 분류와 같은 토큰 분류 작업의 경우 완전한 문서를 인코더와 디코더로 공급하고 디코더의 최상위 은닉 상태를  각 단어의 표현으로 사용한다.

이런 표현은 토큰을 분류하는 데 사용된다.

 

3.3 시퀀스 생성 작업

BART가 자동회귀 디코더를 가지기 때문에 추상적 질의응답과 요약과 같은 시퀀스 생성 작업에 대해 직접적으로 미세조정 할 수 있다.

이러한 작업 모두 에서 정보가 입력으로부터 복사되지만 노이즈 제거 사전 훈련 목표와 밀접하게 연관이 있는 조작된 것이다.

인코더 입력 값은 입력 시퀀스이고 디코더는 자동회귀로 결과를 생성한다.

 

3.4 기계 번역

영어로 번역하는 기계번역 디코더를 증진하기 위해 BART를 사용하여 연구하였다.

이전 연구 Edunov et al. (2019)는 모델이 통합 사전 학습된 인코더에 의해 향상될 수 있다는 것을 보여주었지만 제한된 디코더에서 사전 학습된 언어 모델을 사용하여 얻었다.

우리는 기계 번역을 위해  바이텍스트에서 학습한 인코더 매개변수의 새로운 세트를 추가함으로써 전체 BART 모델을 단일 사전 학습된 디코더로 사용할 수 있다는 보여주었다.

기계 번역을 위해 BART에서 단어 임베딩을 교체하는 작은 추가 인코더를 학습 했다. 새로운 인코더는 분리된 단어 사전을 사용할 수 있다.

더 정확하게는 BART의 인코더 임베딩 레이어를 새로운 임의 초기화 인코더로 교체한다.

이 모델은 종단 간 학습되며 BART가 영어로 노이즈 제거할 수 있는 입력에 외국어 단어를 매핑하도록 새로운 인코더를 학습시킨다.

새로운 인코더는 원본 BART 모델에서 분리된 단어 사전을 사용한다.

원천 인코더를 두 단계로 학습한다. 두 경우 모두 BART 모델의 출력 값에서 cross entropy loss를 역전파한다.

첫 번째 단계에서 대부분의 BART 매개변수를 동결하고 오직 임의로 초기화된 원천 인코더, BART 위치 임베딩 및 self-attention 입력 프로젝션 매트릭스만 업데이트한다.

두 번째 단계에서는 적은 수의 반복에 대해 모든 모델 매개변수를 훈련한다.

 

 

4. 사전 학습 목표 비교

BART는 이전 작업보다 사전 학습 중에 더 광범위한 노이즈 체계를 제공한다.

기본 크기의 모델(6 encoder, 6 decoder layers, 768 hidden size)을 사용하여 다양한 옵션을 비교하고 § 5의 전체 대규모 실험을 위해 고려할 작업의 대표적인 하위 집합에서 평가한다.

 

사전 학습 목표 비교

모든 모델은 비슷한 크기고 책과 Wikipedia 데이터 조합에 대해 1M 단계로 학습한다.

하단 두 블록 항목은 동일한 코드 기반을 사용하여 동일한 데이터에 대해 학습되고 동일한 절차로 미세조정된다.

두 번째 블록의 항목은 이전 작업에서 제안된 사전 훈련 목표에서 영감을 받았지만 평가 목표에 초점을 맞추기 위해 단순화되었다.

성능은 작업에 따라 상당히 다르지만 텍스트 채우기가 있는 BART 모델은 가장 일관되게 강력한 성능을 보여준다.

BART 기반 모델이 대부분의 방식에서 BERT 기반 모델보다 평가가 우수한 것을 볼 수 있다.

 

 


생략


 

6. 정성 분석

BART는 특히 summarization task에서 성능이 많이 향상됐다. 위의 예시는 BART로 생성한 요약의 예이다. Background knowledge를 사용해 요약을 더 잘하는데 특히 source에도 없는 지식을 사용할 수 있다.

 

8. 결론

BART는 분류 task에서 RoBERTa와 비슷한 성능을 내면서도 generation task에서도 state-of-the-art 성능을 보였다. 향후 연구로 pre-training을 위한 document를 손상시키는 방법을 더 조사해야 할 필요가 있다

 

 

 

반응형
LIST
Comments