GPT1 | Improving Language Understandingby Generative Pre-Training

원래 NLP 모델들은 task-specific하게 학습되고 있었음

근데 얘네는 일단 지도학습이고, generalize performance가 낮았음

→ GPT는 unlabeled data로 pretraining을 조진 다음에 downstream task에 맞게 fine-tuning하는 방법을 제시함

Unsupervised Language Modeling
- 일반적으로 LM의 Objective처럼, 단어 사이의 조건부 확률을 예측함
Supervised Fine-Tuning
- token을 받고 원하는 답을 얻도록 튜닝함
- Transformer model 끝에 Linear, Softmax layer 추가해서 학습시켰음
- auxiliary learning objective ( regularizer같은 역할이라고 보면 됨 ) 도 추가함
Task Specific Input Transformation
- finetuning할 때 모델을 너무 바꾸지 않기 위해서, fine-tuning할 때 input을 ordered sequences로 바꿔서 넣음
  - Start , end token, delimiter token 넣음

Unsupervised Language Modeling

Supervised Fine-Tuning

여러 task에 대해 zero-shot performance가 좋았다

LM이 generalizable한 좋은 pre-training objective라는 걸 알려줌

GPT3 \| Language Models are Few-Shot Learners (0)	2023.07.02
GPT2 \| Language Models are Unsupervised Multitask Learners (0)	2023.06.30
Stable Diffusion (0)	2023.06.27
REGULARIZED AUTOENCODERS FOR ISOMETRIC REPRESENTATION LEARNING (0)	2023.06.26
Fast-RCNN 이해하기 (0)	2023.06.26

Latent space