딥러닝

GPT2 | Language Models are Unsupervised Multitask Learners

레이턴트 2023. 6. 30. 17:09

dataset과 parameter를 늘려서 LM을 더 강하게 학습시키자

GPT2에서 집중한 요소

Task Conditioning

  • P(output | input) 대신 P(output | input, task) 를 학습하자
  • 근데 얘를 architecture level 에서 바꾸는 게 아니라, 어차피 input, output, task가 전부 자연어이므로 예시나 가이드를 주는 방식으로 구현했음

Zero shot learning / Zero shot task transfer

  • task에 대한 예시가 없는데도 instruction만 보고 task를 이해하는 것
  • GPT1에서는 fine-tuning할 때 input을 rearrange 했던 것에 반해, GPT2한테 줄 때는 task를 이해하고 답을 줄 수 있는 형식으로 input을 넣음

Dataset

WebText

  • Reddit의 outbound link documents중 upvoted된 애들
  • 8million documents, 40GB

Model architecture

  • Parameter : 1.5B (GPT1 : 117M)
  • 48 layers, 1600 dimensional vectors for word embeddings
  • Larger vocabulary 50,257 tokens
  • batch size 512, context window 1024 tokens
  • Layer normalization 위치 변경