추론 AI 모델 o1, 임상 진단 정확도 94.3% 달성
의료진 대비 우수한 판단 정확도 및 일관성 확보
멀티모달 기반 의료 영상 분석 역량 입증... 의사 결정 보조 도구 부상

인공지능의 추론 능력이 실제 임상 현장의 복잡한 의사 결정 과정에서 의료진의 판단 수준을 넘어섰다는 연구 결과가 도출됐다. 연세대학교 용인세브란스병원 심장내과 배성아·정신건강의학과 박진영 교수와 연세의대 본과생 연구팀은 오픈AI(OpenAI)의 멀티모달 및 추론 모델인 GPT-4o와 o1의 임상 판단 정확도를 분석해 이 같은 결론을 도출했다.
이번 연구는 2011년부터 2024년까지 의료 교육 플랫폼 메드스케이프에 축적된 1,426건의 임상 증례를 대상으로 수행됐다. 분석 데이터에는 환자의 병력과 검사 수치뿐만 아니라 X-ray, CT, MRI, 초음파, 심전도 등 917건의 의료 영상 정보가 포함되어 실제 진료 환경과 유사한 복잡성을 확보했다. 연구 결과에 따르면 다수 의료진이 도출한 답안의 평균 정확도는 85.0% 수준이었으나, GPT-4o는 88.4%, 최신 추론 모델인 o1은 94.3%의 정확도를 기록하며 의료진의 성적을 상회했다.
특히 o1 모델은 진단과 질병 특성 파악, 검사 계획 수립, 치료 방향 설정 등 모든 임상 판단 영역에서 90% 이상의 고른 정확도를 유지했다. 전공 분야별 분석에서도 내과, 외과, 정신과 등 과목에 관계없이 안정적인 성능을 나타낸 점이 주목할 만하다. 동일 증례에 대한 5회 반복 분석 결과에서도 o1 모델은 90.7%의 증례에서 일관된 정답을 제시하며 단순 확률에 의한 선택이 아닌 체계적인 추론 과정을 거치고 있음을 증명했다.
연구를 주도한 배성아·박진영 교수는 "이번 연구는 AI 모델이 텍스트와 의료 영상을 통합해 실제 임상 수준의 판단을 내릴 수 있다는 것을 객관적으로 입증한 사례"라며 "이는 AI가 의료진의 판단을 대체한다기보다, 복잡한 임상 상황에서 의사 결정을 보조하고 안정성을 높이는 도구로 활용될 수 있음을 보여준다"고 밝혔다. 이번 연구 결과는 국제학술지 Medicine (Baltimore) 2026년 1월 호에 게재됐다.