딥러닝
GPT2 | Language Models are Unsupervised Multitask Learners
레이턴트
2023. 6. 30. 17:09
dataset과 parameter를 늘려서 LM을 더 강하게 학습시키자
GPT2에서 집중한 요소
Task Conditioning
- P(output | input) 대신 P(output | input, task) 를 학습하자
- 근데 얘를 architecture level 에서 바꾸는 게 아니라, 어차피 input, output, task가 전부 자연어이므로 예시나 가이드를 주는 방식으로 구현했음
Zero shot learning / Zero shot task transfer
- task에 대한 예시가 없는데도 instruction만 보고 task를 이해하는 것
- GPT1에서는 fine-tuning할 때 input을 rearrange 했던 것에 반해, GPT2한테 줄 때는 task를 이해하고 답을 줄 수 있는 형식으로 input을 넣음
Dataset
WebText
- Reddit의 outbound link documents중 upvoted된 애들
- 8million documents, 40GB
Model architecture
- Parameter : 1.5B (GPT1 : 117M)
- 48 layers, 1600 dimensional vectors for word embeddings
- Larger vocabulary 50,257 tokens
- batch size 512, context window 1024 tokens
- Layer normalization 위치 변경