본문 바로가기

논문 리뷰/Language Model

Towards Conversational Diagnostic AI (AMIE)

AI가 의사를 뛰어넘었다고 한다 ㄷㄷ

 

[arXiv](2024/01/11 version v1)

 

 

Nature article : Google AI는 인간 의사보다 더 나은 침상 매너를 갖추고 있으며 더 나은 진단을 제공합니다.

 

Abstract

Self-play 시뮬레이션 환경을 통해 의료 진단에 최적화된 AI system인 AMIE (Articulate Medical Intelligence Explorer) 제안

 

 

 

AMIE: An LLM based AI System for Diagnostic Dialogue

Real-world Datasets for AMIE

  • 미국 의사 면허 시험 객관식 스타일 문제 MedQA
  • MultiMedBench의 QA 질문에 대해 전문가가 작성한 long-form Medical QA
  • 의료 기록 database인 MIMIC-III에서 임상의가 작성한 의료 기록 요약
  • 약 10만 건의 실제 의료 대화 녹취록

 

Simulated Dialogue Learning Environment and Self-play for AMIE

데이터에는 노이즈가 많으며, 진화하는 시뮬레이션 대화 세트를 통해 AMIE를 반복적으로 fine-tuning 하였다.

  • Inner self-play loop: AI 환자 agent와의 시뮬레이션 대화를 통해 행동 개선
  • Outer self-play loop: 일련의 정제된 시뮬레이션 데이터를 fine-tuning iteration에 통합

 

Fine-tuning을 반복할 때마다 self-play를 통해 약 600개의 일반적인 질병에서 4개의 대화가, 약 5000개의 덜 일반적인 질병에서 2개의 대화가 생성되어 평균 대화 길이 21회의 10000개 이상의 대화가 생성되었다.

 

Simulated Dialogue Data Curation

고품질 시뮬레이션 대화 제작을 위해 3가지 핵심 요소로 구성된 multi-agent framework를 개발했다.

  • Vignette Generator
  • Simulated Dialogue Generator
  • Self-play Critic

 

Vignette Generator

웹 검색을 통해 다양하고 사실적인 환자 시나리오를 대규모로 생성하여 시뮬레이션 대화를 위한 context로 사용할 수 있게 함.

 

Simulated Dialogue Generator

3명의 LLM agent가 대화한다. (환자 agent, 의사 agent, 진행자)

 

진행자는 대화가 적절히 끝났는지 여부를 감지하여 불필요한 대화가 생기지 않도록 하는 역할이다.

 

Self-play Critic

4번째 LLM agent인 critic은 의사 agent가 공감 능력과 전문성을 발휘했는지, 불필요한 질문을 하지는 않았는지, 챗봇이라는 사실이 드러나지 않도록 자연스럽게 답변했는지, 적절한 치료법을 제시하였는지 여부를 평가한다.

 

피드백 후 동일한 환자 agent와 다시 한번 대화를 반복.

 

Instruction Fine-tuning

AMIE는 PaLM 2를 기반으로 구축되었다.

 

각 agent의 역할에 따라 정적 dataset을 통해 instruction tuning을 수행한 뒤 self-play를 통해 생성된 시뮬레이션 데이터로 fine-tuning 한다.

 

Chain-of-reasoning for Online Inference

의사 agent는 응답을 생성하기 전에 순차적인 모델 호출을 통해 연쇄 추론을 사용하도록 한다.

  1. 환자 정보 분석
  2. 대응 및 조치 수립
  3. 응답 다듬기

 

 

 

Evaluation

Objective structured clinical examination (OSCE)는 실제로 임상의의 역량 평가에 사용되는 방법이다.

 

실제 임상의와 검증된 환자 배우를 모집해 online에서 text로 상담을 진행한다.

환자는 상대가 의사인지 AMIE인지 모르며, 대화 내용은 환자와 실제 전문의에 의해 평가된다.

 

 

 

Results

진단의 정확도와 대화 품질 측면에서 모두 AMIE가 1차 진료 의사(PCP)를 앞섰다.

 

다중 평가:

 

정확도:

 

환자가 평가한 대화 품질: