티스토리

Latent space

검색하기

GPT2 | Language Models are Unsupervised Multitask Learners

딥러닝

GPT2 | Language Models are Unsupervised Multitask Learners

레이턴트 2023. 6. 30. 17:09

dataset과 parameter를 늘려서 LM을 더 강하게 학습시키자

GPT2에서 집중한 요소

Task Conditioning

P(output | input) 대신 P(output | input, task) 를 학습하자
근데 얘를 architecture level 에서 바꾸는 게 아니라, 어차피 input, output, task가 전부 자연어이므로 예시나 가이드를 주는 방식으로 구현했음

Zero shot learning / Zero shot task transfer

task에 대한 예시가 없는데도 instruction만 보고 task를 이해하는 것
GPT1에서는 fine-tuning할 때 input을 rearrange 했던 것에 반해, GPT2한테 줄 때는 task를 이해하고 답을 줄 수 있는 형식으로 input을 넣음

Dataset

WebText

Reddit의 outbound link documents중 upvoted된 애들
8million documents, 40GB

Model architecture

Parameter : 1.5B (GPT1 : 117M)
48 layers, 1600 dimensional vectors for word embeddings
Larger vocabulary 50,257 tokens
batch size 512, context window 1024 tokens
Layer normalization 위치 변경