← Back to Archive

April 2, 2026

오늘의 Digital Health & Medical AI

I
PubMedPLOS Digital Health · 2023

Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models.

Tiffany H. Kung, Morgan Cheatham, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Manber, Victor Tsegai

핵심 주제

ChatGPT가 미국 의사 면허 시험(USMLE)을 통과할 수 있을까요? 대규모 언어 모델의 의학 교육 활용 가능성을 탐구합니다.

왜 읽어야 하는가

의료 AI나 디지털 헬스 분야에서 LLM의 가능성을 탐색 중이라면, 이 논문은 반드시 읽어야 할 랜드마크 연구입니다. ChatGPT가 USMLE 전 단계에서 합격선에 근접하거나 초과하는 성과를 보였다는 사실은, 의학 교육과 임상 의사결정 보조 도구로서 LLM의 잠재력을 입증합니다. 1,266회 인용이 보여주듯, 이 분야의 기준점이 된 연구입니다.

연구 설계

연구팀은 ChatGPT에 USMLE Step 1, Step 2CK, Step 3의 문제를 입력하고 성능을 평가했습니다. 표준화된 시험 문제를 사용하여 정확도를 측정하고, 모델의 답변에 대한 정성적 분석도 병행했습니다.

주요 발견

ChatGPT는 USMLE 전 단계에서 합격선(약 60%) 근처 또는 그 이상의 정확도를 보였습니다. 특히 설명이 필요한 개방형 문제에서도 의학적으로 타당한 추론을 생성했습니다. 이는 단순 암기가 아닌 임상적 사고 능력의 가능성을 시사합니다. 다만 할루시네이션과 최신 의학 지식의 부재는 여전한 한계입니다.

논문 원문
II
PubMedCell · 2018

Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning.

Daniel S. Kermany, Michael Goldbaum, Wenjia Cai, Carolina C.S. Valentim, Huiying Liang, Sally L. Baxter, Alex McKeown, Ge Yang, Xiaokang Wu, Fangbing Yan, Justin Dong, Made K. Prasadha, Jacqueline Pei, Magdalene Y.L. Ting, Jie Zhu, Christina Li, Sierra Hewett, Jason Dong, Ian Ziyar, Alexander Shi, Runze Zhang, Lintao Zheng, Rui Hou, William Shi, Xin Fu, Yaou Deng, Cliff Jia, Ping Lam, Tingfang Yi, Shirley Liu, Kang Zhang

핵심 주제

딥러닝이 의료 영상에서 진단 가능한 질병을 식별하고 치료 가능한 상태를 구분할 수 있을까요?

왜 읽어야 하는가

의료 AI 진단 분야의 초석이 되는 논문입니다. Cell에 게재된 이 연구는 전이 학습(transfer learning)을 활용해 제한된 데이터로도 높은 진단 정확도를 달성할 수 있음을 보여줍니다. 안과 OCT 영상과 흉부 X-ray에서 전문의 수준의 성능을 입증했으며, 의료 AI 스타트업이나 SaMD 개발에 관심 있는 연구자·엔지니어에게 필수적인 참고 문헌입니다.

연구 설계

연구팀은 108,312장의 안과 OCT 영상과 흉부 X-ray 데이터셋을 구축했습니다. 사전 학습된 딥러닝 모델에 전이 학습을 적용하여, 정상과 다양한 질환 상태를 분류하는 모델을 훈련시켰습니다. 성능은 전문 안과 의사 및 영상의학과 전문의와 비교 평가했습니다.

주요 발견

딥러닝 모델은 안과 OCT 영상에서 황반변성, 당뇨성 황반부종 등을 전문의 수준으로 진단했습니다. 흉부 X-ray에서도 폐렴을 높은 정확도로 탐지했습니다. 가장 중요한 기여는 '소량의 라벨링 데이터'로도 전이 학습을 통해 전문가급 성능에 도달할 수 있다는 것을 대규모로 입증한 점입니다. 이는 의료 데이터가 부족한 환경에서의 AI 진단 도구 개발에 큰 함의를 가집니다.

논문 원문
III
PubMedHealthcare (Basel, Switzerland) · 2023

ChatGPT Utility in Healthcare Education, Research, and Practice: Systematic Review on the Promising Perspectives and Valid Concerns.

Malik Sallam

핵심 주제

ChatGPT가 의료 교육, 연구, 임상 실무에서 실제로 어떻게 활용되고 있으며, 어떤 우려가 있을까요?

왜 읽어야 하는가

LLM의 의료 적용에 대한 가장 포괄적인 체계적 리뷰 중 하나입니다. 800회 인용이 말해주듯, 이 분야에 진입하려는 연구자에게 필수적인 문헌 지도를 제공합니다. ChatGPT의 가능성을 낙관적으로만 보는 것이 아니라, 윤리적·실용적 우려를 균형 있게 다루고 있어 규제 담당자나 의료 정책 결정자에게도 유용합니다.

연구 설계

이 논문은 ChatGPT의 의료 분야 활용에 대한 체계적 문헌 리뷰(Systematic Review)입니다. 의료 교육, 연구 지원, 임상 실무 등 다양한 영역에서의 활용 사례와 우려를 분류하고 종합적으로 분석했습니다.

주요 발견

ChatGPT는 의료 교육에서 학습 보조 도구, 시험 문제 생성, 환자 시뮬레이션에 유망한 성과를 보였습니다. 연구에서는 문헌 요약, 초안 작성에 활용 가능하나 정확성 검증이 필수입니다. 임상 실무에서는 환자 상담 보조, 의무 기록 작성 등에 잠재력이 있지만, 할루시네이션, 편향, 개인정보 보호, 규제 미비가 주요 우려로 지적됩니다. 결론적으로 LLM은 의료의 '보조 도구'로서 가치가 크지만, 독립적 의사결정 도구로는 아직 부적합합니다.

논문 원문