Prioritized Training on Points that are learnable, Worth Learning, and Not Yet Learnt

카테고리 없음

Prioritized Training on Points that are learnable, Worth Learning, and Not Yet Learnt

알 수 없는 사용자 2022. 8. 29. 11:11

안녕하세요. 서울대학교 VMO 연구실 신광용입니다. 8/11 세미나 내용 요약입니다.

효율적인 학습을 위해 학습 데이터를 랜덤하게 선택하는 대신 데이터를 선별해서 학습하는 방법이 존재하는데, 보통 데이터를 선택할 때 training loss 또는 gradient 값이 큰 데이터 위주로 선택했습니다. 이 논문은 기존 방법들은 학습해서는 안되는 noisy, 혹은 학습 중요도가 낮은 outlier 데이터 위주로 선택하는 단점이 있다는 점을 보여주고, 이 단점들을 개선한 방법을 제안합니다.

이 논문의 학습 데이터 선택 기준은 training loss뿐만 아니라, 따로 분리한 holdout 데이터셋에 학습한 모델에서의 loss 값 또한 참고합니다. 후자 loss을 irreducible holdout loss(IL loss)이라 부르고, IL loss값이 크면 noisy 혹은 outlier 데이터로 판단해서 해당 데이터는 선택순위를 낮게 배정합니다. QMNIST, CIFAR-10/100, CINIC-10, CoLA, SST-2 그리고 Clothing-1M 데이터셋에서 실험을 진행했고, 데이터 개수가 많지만 noise가 많은 Clothing-1M 데이터셋에 가장 효과적이었다고 합니다.

감사합니다.

현재글Prioritized Training on Points that are learnable, Worth Learning, and Not Yet Learnt

KDST

KDST는 딥러닝을 포함한 데이터와 지능에 관련된 여러 주제에 대해서 연구하는 팀입니다.

gan, Reinforcement Learning, KV cache, point-based image editing #dragdiffusion #dragondiffusion, Latent reasoning, DQN, representation leanring, bearing fault diagnosis, autoencoder, ICCV, anomaly detection, Knowledge Distillation, Chain-of-Thought, pruning, 강화학습, bearing fault detection, KV cache compression, domain generalization, robustness, cnn,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

KDST

Prioritized Training on Points that are learnable, Worth Learning, and Not Yet Learnt

'카테고리 없음'의 다른글

티스토리툴바