Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning.
Tordjman M, Liu Z, Yuce M, Fauveau V, Mei Y, Hadjadj J, Bolger I, Almansour H, Horst C, Parihar AS, Geahchan A, Meribout A, Yatim N, Ng N, Robson P, Zhou A, Lewis S, Huang M, Deyer T, Taouli B, Lee HC, Fayad ZA, Mei X
핵심 주제
새롭게 소개된 DeepSeek 대규모 언어 모델이 다양한 의료 과제 및 임상 추론에서 기존 모델들과 비교하여 어떤 성능을 보이는가?
왜 읽어야 하는가
디지털 헬스 및 의료 AI 개발자들은 새로운 LLM의 실제 의료 적용 가능성을 가늠할 수 있고, 어떤 모델이 특정 임상 과제에 더 적합한지 판단하는 데 도움을 얻을 수 있다. 특히 임상 의사결정 지원 시스템 개발자나 의료 영상 리포트 자동 생성 도구 기획자라면 각 모델의 장단점을 파악하고 현실적인 한계를 인지하는 데 유용할 것이다.
연구 설계
이 연구는 DeepSeek-R1, ChatGPT-o1, Llama 3.1-405B 세 가지 대규모 언어 모델의 의료 분야 역량을 비교 평가했다. 평가 방법으로는 미국 의사 면허 시험(USMLE) 문제 풀이, 텍스트 기반 진단 및 관리 사례 추론, RECIST 1.1 종양 분류, 그리고 다양한 모달리티의 진단 영상 리포트 요약 등 총 네 가지 의료 과제가 사용되었다.
주요 발견
DeepSeek-R1은 USMLE 시험에서 ChatGPT-o1에 소폭 뒤처졌지만 Llama 3.1-405B보다는 분명히 나은 성적을 기록했다. 특히 텍스트 기반 임상 사례 추론 능력은 ChatGPT-o1과 대등한 수준이었고, 진단 추론 과정의 정확성은 경쟁 모델들을 앞선다고 평가받았다. 그럼에도 불구하고, 진단 영상 리포트 요약 품질이 ChatGPT-o1보다 낮게 평가된 점은 이 모델이 실제 임상 현장에서 범용적으로 사용되기 위해선 아직 보완이 필요하다는 방증이다.