논문 리뷰/etc.
Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND)
Ostin
2024. 5. 28. 13:22
Abstract
Diffusion world model에서 훈련된 RL agent인 DIAMOND (DIffusion As a Model Of eNvironment Dreams) 소개
[Github]
[arXiv](2024/05/20 version v1)
Introduction
실제 환경이 아닌 diffusion model이 생성한 world에서 RL agent를 훈련한다.
DM은 이전 장면과 agent의 행동을 반영하여 다음 장면을 생성한다.
Method
알고리즘:
먼저 정책 πϕ를 통해 실제 환경에서 데이터 수집
→ World model인 diffusion model 업데이트
→ 보상 및 종료를 담당하는 모델 R (LSTM) 업데이트
→ Actor-Critic model로써 πϕ, Vϕ 업데이트