AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning (AAAI-22)
카테고리 없음 2022. 12. 1. 23:20안녕하세요 서울대학교 VMO 연구실 김민재입니다. 11/18 세미나 내용 간략히 공유해 드립니다.
헤즈업 노리밋 텍사스 홀덤(HUNL)게임은 정보가 불완전한 전형적인 게임입니다. DeepStack 및 Libratus와 같은 대표적인 선행 연구들은 HUNL을 해결하기 위해 CFR 및 그 변형에 크게 의존하지만 CFR 에는 많은 연산 오버헤드가 존재합니다. 본 논문은 엔드 투 엔드 셀프 플레이 강화 학습 프레임워크로 학습할 수 있는 고성능 경량 HUNL AI인 AlphaHoldem을 제시합니다.
제안된 프레임워크는 학습된 모델을 다른 과거 버전들과 경쟁하여 end-to-end로 직접 학습하기 위한 CNN 아키텍처를 채택합니다. 주요 contribution에는 카드 및 베팅 정보의 새로운 상태 표현, 멀티태스킹 셀프 플레이 training loss function, 최종 모델을 생성하기 위한 새로운 모델 평가 및 선택 metric이 포함됩니다. AlphaHoldem은 단일 GPU만 사용하여 각 의사 결정에 2.9밀리초만 소요되며 DeepStack보다 1,000배 이상 빠릅니다.
감사합니다.