Transformer without Normalization (CVPR 2025)
안녕하세요 KDST팀 이원준입니다. 금일 진행한 세미나 논문에 대해서 공유드리도록 하겠습니다. CVPR 2025에 accept된 논문이고, Yann Lecun과 Kaiming He가 저자에 포함되어 있는 논문입니다. Introduction 최근 Normalization 레이어는 필수적으로 사용되고 있지만, 본 논문에서는 제안한 방법을 통해 이러한 Normalization 없는 trasnformer가 이와 비슷한 성능 혹은 더 나은 성능을 입증한 논문입니다. 본 논문에서는 Normalization을 대체하기 위해, Dynamic Tanh (DyT)를 제안합니다. 위 방식은 굉장히 심플한 방식만으로 기존에 사용되어왔던 Normalization을 대체함으로써 효과성을 입증합니다. 위 그림에서 저자들은 ..