본문 바로가기

논문 리뷰/etc.

Diffusion for World Modeling: Visual Details Matter in Atari (DIAMOND)

Abstract

Diffusion world model에서 훈련된 RL agent인 DIAMOND (DIffusion As a Model Of eNvironment Dreams) 소개 

 

[Github]

[arXiv](2024/05/20 version v1)

 

 

 

 

Introduction

실제 환경이 아닌 diffusion model이 생성한 world에서 RL agent를 훈련한다.

 

DM은 이전 장면과 agent의 행동을 반영하여 다음 장면을 생성한다.

 

 

 

Method

알고리즘:

각 함수에 대한 세부 알고리즘은 논문 부록에

 

먼저 정책 πϕ를 통해 실제 환경에서 데이터 수집

→ World model인 diffusion model 업데이트

→ 보상 및 종료를 담당하는 모델 R (LSTM) 업데이트

Actor-Critic model로써 πϕ, Vϕ 업데이트

 

 

 

Experiments