안녕하세요, KDST 김동진입니다.

 

오늘 소개해드릴 논문 What Can Transformers Learn In-Context? A Case Study of Simple Function Classes

 NeurIPS2022에서 좋은 평가를 받은 논문입니다.

 

GPT-3 모델의 등장으로 번역과 같은 다양한 downstream task에서 Zero-shot 또는 few-shot으로도 준수한 성능을 낼 수 있게 되었습니다. 이러한 발전으로 prompt engineering에 관한 관심 또한 높아졌으며, 이번 논문은 prompt engineering의 방식 중 하나인 in-context learning에 관한 내용입니다. (In-context learing이란 모델의 weight가 update가 되지 않는 상황에서 query 입력과 in-context 예제로 구성된 prompt에서 in-context 예제들을 기반으로 query에 대한 예측을 수행하는 것을 말합니다.)

 

논문의 주요 내용은 아래와 같습니다. 

본 논문은 in-context learning을 inference 때에 새로운 함수를 학습하는 문제로 정의하고, 구성된 실험을 통해 GPT 모델이 in-context learing을 통해 간단한 함수들(linear function, sparse linear function, decision tree, 2-layer NN)을 특정 가중치를 넘어서 해당 함수들의 class에 대한 학습을 꽤 잘 수행할 수 있음을 보여줍니다.

 

또한, 더 나아가 training 때와 inference때의 함수와 입력 분포의 차이 그리고 inference때 in-context example과 query의 입력 분포의 차이가 존재하는 상황에서의 in-context learning에 대한 실험도 진행하였습니다. 개인적인 생각으로 training과 inference때의 분포 차이를 만들어낸 실험에서도 좋은 성능을 보이는 것으로 보아 in-context learning이 training 데이터에 대한 memorization에 의존하지 않는다는 것을 보여주는 것 같아 흥미로웠습니다.

 

논문에서 진행된 실험들이 자연어를 다루지는 않아 실험 결과들이 우리에게 친숙하게 다가오지는 않을 수 있지만, decoder-only transformer 모델의 in-context learning에 대한 가능성을 실험적으로 보여주어 다른 분들도 읽어보시길 추천해 드립니다. 감사합니다.