'2022/12/01 글 목록

AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning (AAAI-22)

안녕하세요 서울대학교 VMO 연구실 김민재입니다. 11/18 세미나 내용 간략히 공유해 드립니다. 헤즈업 노리밋 텍사스 홀덤(HUNL)게임은 정보가 불완전한 전형적인 게임입니다. DeepStack 및 Libratus와 같은 대표적인 선행 연구들은 HUNL을 해결하기 위해 CFR 및 그 변형에 크게 의존하지만 CFR 에는 많은 연산 오버헤드가 존재합니다. 본 논문은 엔드 투 엔드 셀프 플레이 강화 학습 프레임워크로 학습할 수 있는 고성능 경량 HUNL AI인 AlphaHoldem을 제시합니다. 제안된 프레임워크는 학습된 모델을 다른 과거 버전들과 경쟁하여 end-to-end로 직접 학습하기 위한 CNN 아키텍처를 채택합니다. 주요 contribution에는 카드 및 베팅 정보의 새로운 상태 표현, 멀티태스..

카테고리 없음 2022.12.01

« 2022/12 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

KDST

2022/12/01 1

티스토리툴바