“Unlike recent language repre- sentation models, BERT is designed to pretrain deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers.”
BERT는 어떠한 특정 task를 해결하기 위해 고안된 모델이 아닌, “사전 훈련 언어모델”이다.
•
BERT를 fine tuning함으로써 넓은 분야의 task들에서 SOTA모델을 만들어낼 수 있다!( QA, Language inference )
•
task에 맞춰 변화를 많이 줄 필요도 없고, output 레이어만 추가하면 된다!
컴퓨터 비전에서 ImageNet 등의 대용량 데이터셋으로 pretrain된 모델들을 backbone으로 사용하는 것과 유사하다고 보인다.
•
unlabeled text를 통해 pretrain한다는 것도 중요한 점으로 보인다