1Day 3Papers

the daily curator of research insights

April 14, 2026

오늘의 Digital Health & Medical AI

PubMedNature medicine · 2025 Aug

Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning.

Tordjman M, Liu Z, Yuce M, Fauveau V, Mei Y, Hadjadj J, Bolger I, Almansour H, Horst C, Parihar AS, Geahchan A, Meribout A, Yatim N, Ng N, Robson P, Zhou A, Lewis S, Huang M, Deyer T, Taouli B, Lee HC, Fayad ZA, Mei X

핵심 주제

새롭게 소개된 DeepSeek 대규모 언어 모델이 다양한 의료 과제 및 임상 추론에서 기존 모델들과 비교하여 어떤 성능을 보이는가?

왜 읽어야 하는가

디지털 헬스 및 의료 AI 개발자들은 새로운 LLM의 실제 의료 적용 가능성을 가늠할 수 있고, 어떤 모델이 특정 임상 과제에 더 적합한지 판단하는 데 도움을 얻을 수 있다. 특히 임상 의사결정 지원 시스템 개발자나 의료 영상 리포트 자동 생성 도구 기획자라면 각 모델의 장단점을 파악하고 현실적인 한계를 인지하는 데 유용할 것이다.

연구 설계

이 연구는 DeepSeek-R1, ChatGPT-o1, Llama 3.1-405B 세 가지 대규모 언어 모델의 의료 분야 역량을 비교 평가했다. 평가 방법으로는 미국 의사 면허 시험(USMLE) 문제 풀이, 텍스트 기반 진단 및 관리 사례 추론, RECIST 1.1 종양 분류, 그리고 다양한 모달리티의 진단 영상 리포트 요약 등 총 네 가지 의료 과제가 사용되었다.

주요 발견

DeepSeek-R1은 USMLE 시험에서 ChatGPT-o1에 소폭 뒤처졌지만 Llama 3.1-405B보다는 분명히 나은 성적을 기록했다. 특히 텍스트 기반 임상 사례 추론 능력은 ChatGPT-o1과 대등한 수준이었고, 진단 추론 과정의 정확성은 경쟁 모델들을 앞선다고 평가받았다. 그럼에도 불구하고, 진단 영상 리포트 요약 품질이 ChatGPT-o1보다 낮게 평가된 점은 이 모델이 실제 임상 현장에서 범용적으로 사용되기 위해선 아직 보완이 필요하다는 방증이다.

논문 원문 →

PubMedStudies in health technology and informatics · 2025 Aug 7

Impact of an Evidence-Based Large Language Model (LLM) Diagnostic Decision Support System: A Randomised Controlled Trial.

Ahn S, Park J, Hur S, Jung KY, Lee JH, Choi SW, Son MH, Kang MJ, Kim YJ, Park H, Cha WC, Yoo J

핵심 주제

증거 기반 LLM 진단 보조 시스템이 응급 의료진의 진단 패턴과 의사 결정에 어떤 영향을 미치며, AI 제안 채택이 진단 정확도와 상관관계가 있을까?

왜 읽어야 하는가

LLM 기반 진단 보조 시스템이 실제 응급실 환경에서 의료진의 의사 결정에 어떤 영향을 미치는지 궁금하다면 주목해야 한다. 디지털 헬스 솔루션 개발자에게는 실제 임상 적용 가능성과 한계를, 의료 AI 정책 입안자에게는 AI 거버넌스와 책임 문제를 숙고할 단초를 제공할 것이다.

연구 설계

본 연구는 무작위 대조군 연구(RCT) 방식으로 진행되었다. 응급 의료 제공자를 대상으로 AI 기반 진단 제안이 진단 패턴과 의사 결정에 미치는 영향을 평가했다. 구체적인 참가자 수나 연구 기간은 초록에서 명시되지 않았다.

주요 발견

이 초록만으로는 본 연구의 '주요 발견'을 알 수 없다는 점이 가장 큰 한계다. 연구는 LLM 진단 제안이 응급 의료진의 진단 패턴과 의사 결정에 미치는 영향, 그리고 AI 제안 채택이 진단 정확도와 상관관계가 있는지 '평가하는 것'이 목표라고 명시하고 있을 뿐이다. 따라서 AI가 실제 임상 환경에서 얼마나 신뢰할 만한 증거를 기반으로 진단에 기여했는지, 혹은 오히려 의료진의 판단에 혼란을 주지는 않았는지에 대한 결과가 궁금하다.

논문 원문 →

III

PubMedCancer cell · 2026 Mar 9

A context-augmented large language model for accurate precision oncology medicine recommendations.

Jun H, Tanaka Y, Johri S, Camp SY, Bao EL, Carvalho FLF, Gui DY, Jordan AC, Labaki C, Martin SD, Nagy M, O'Meara TA, Pappa T, Pimenta EM, Saad E, Yang DD, Gillani R, Tewari AK, Reardon B, Van Allen E

핵심 주제

정밀 종양학 분야에서 급변하는 치료 지식과 규제 변화 속에서, 일반 LLM의 한계를 넘어선 문맥 강화형 LLM이 정확하고 최신화된 치료 권고를 제공할 수 있는가?

왜 읽어야 하는가

이 논문은 정밀 종양학 분야에서 의료 AI의 실제 적용 가능성을 탐색하며, 급변하는 의료 지식의 홍수 속에서 임상의들이 직면하는 정보 과부하 문제에 대한 구체적인 해결책을 제시한다. 디지털 헬스 솔루션 개발자나 의료 AI 연구자들은 LLM을 실제 의료 환경에 도입할 때 직면할 수 있는 신뢰성 및 최신성 문제를 어떻게 극복할지에 대한 실질적인 통찰을 얻을 수 있을 것이다. 특히, 진료 의사결정 지원 시스템(CDSS)이나 디지털 치료제(DTx) 개발 시 참고할 만한 아키텍처적 시사점을 제공한다.

연구 설계

연구팀은 분자 종양학 연감(MOAlmanac)을 활용한 검색 증강 생성(RAG)-LLM 워크플로우를 개발하고, 기존 LLM 단독 접근 방식과 비교 평가했다. 평가에는 합성 질의와 실제 종양 전문의로부터 수집된 임상 질의가 사용되었다. 모델 성능 향상을 위해 다양한 프롬프팅 및 검색 전략도 탐색되었다.

주요 발견

개발된 RAG-LLM은 합성 질의에서 최대 95%, 실제 종양 전문의의 질의에서는 93%의 높은 정확도를 보였다. 이는 LLM이 제한적인 일반 지식의 한계를 넘어 전문 의료 분야에서 실질적인 신뢰도를 확보할 수 있음을 시사한다. 그러나 '최대' 95%라는 수치는 특정 조건에서의 최고치일 수 있으며, 임상 현장에서의 완전한 신뢰를 위해서는 오류 발생 시의 책임 소재나 설명 가능성에 대한 추가적인 검토가 필수적이다.

논문 원문 →