← Back to Archive

April 15, 2026

오늘의 Digital Health & Medical AI

I
PubMedPLOS digital health · 2024 Dec

CPLLM: Clinical prediction with large language models.

Ben Shoham O, Rappoport N

핵심 주제

사전 훈련된 거대 언어 모델을 미세 조정하여 환자의 과거 의료 기록으로 질병 진단 및 재입원을 정확하게 예측하고, 기존 전문 모델들을 능가할 수 있을까?

왜 읽어야 하는가

이 논문은 일반 LLM으로 임상 예측 분야에서 최첨단 성능을 달성했다고 주장하며, **임상 의사결정 지원** 시스템 개발을 간소화할 가능성을 제시한다. 특히 의료 데이터에 대한 사전 훈련 없이도 뛰어난 성능을 보였다는 점은 **데이터 보안이 민감한 환경**이나 **자원 제약이 있는 의료기관**에서 예측 모델을 구축하는 데 중요한 시사점을 준다.

연구 설계

본 연구는 사전 훈련된 거대 언어 모델을 양자화 및 프롬프트 기반 미세 조정을 통해 환자의 과거 의료 기록을 활용하여 진행되었다. 연구팀은 모델을 질병 진단 예측과 병원 재입원 예측이라는 두 가지 주요 임상 과제에 적용했으며, 기존 최첨단 모델인 Retain 및 Med-BERT와 성능을 비교했다.

주요 발견

CPLLM은 질병 진단과 병원 재입원 예측 모두에서 PR-AUC 및 ROC-AUC 지표 면에서 Retain 및 Med-BERT를 포함한 모든 비교 모델들을 능가하는 최첨단 성능을 보였다. 특히 이 성과는 의료 데이터에 대한 별도의 사전 훈련 없이 달성되었다는 점에서 주목할 만하다. 이는 범용 LLM이 최소한의 미세 조정만으로도 뛰어난 임상 예측 능력을 발휘할 수 있음을 시사하며, 의료 AI 개발에 있어 자원 효율성과 신속한 현장 적용 가능성을 크게 높일 수 있다고 해석된다.

논문 원문
II
PubMedHepatology (Baltimore, Md.) · 2024 Nov 1

Development of a liver disease-specific large language model chat interface using retrieval-augmented generation.

Ge J, Sun S, Owens J, Galvez V, Gologorskaya O, Lai JC, Pletcher MJ, Lai K

핵심 주제

상업용 대규모 언어 모델(LLM)의 환각 문제와 임상적 비최적화를 RAG(Retrieval-Augmented Generation)로 해결하여 특정 질환에 특화된 LLM이 임상에서 실질적인 대안이 될 수 있는가?

왜 읽어야 하는가

의료 AI 솔루션 개발자들은 R획득 증강 생성(RAG)이 특정 질환 LLM의 한계를 보완하는 실질적인 접근법임을 이해할 수 있으며, 임상 의사 및 DTx(디지털 치료제) 연구자들은 환자 교육 및 진료 보조 도구로서 특화 LLM의 현재 성능과 현실적 제약을 가늠해볼 수 있을 것이다. 이는 상용 모델 도입을 고려하는 모든 실무자에게 중요한 정보를 제공한다.

연구 설계

본 연구는 기관의 보호 건강 정보(PHI) 준수 플랫폼에서 30개 간 질환 가이드라인 문서를 RAG 기반으로 학습시킨 LLM 'LiVersa'를 개발했다. 평가는 두 단계로 진행되었는데, 첫째는 기존 지식 평가 10개 문항에 대한 LiVersa의 답변을 연수생의 답변과 비교하는 것이었고, 둘째는 15명의 간 전문의가 LiVersa, OpenAI ChatGPT 4, Meta LLAMA 2가 생성한 10개 질문의 답변을 평가했다.

주요 발견

LiVersa는 10개 핵심 질문에 대한 답변에서 연수생을 능가하는 정확성을 보였다. 그러나 15명의 간 전문의 평가에서는 상업용 모델인 ChatGPT 4 대비 정확도는 높았지만, 정보의 포괄성과 안전성 면에서는 낮은 점수를 받았다. 이는 RAG 데이터셋의 규모가 모델의 유용성을 직접적으로 제한하며, 임상 현장 적용을 위한 LLM은 단순히 ‘정답’을 맞히는 것을 넘어 ‘안전하고 포괄적인’ 정보를 제공해야 한다는 현실적 과제를 명확히 보여준다.

논문 원문
III
PubMedJournal of the American Medical Informatics Association : JAMIA · 2025 Apr 1

Improving large language model applications in biomedicine with retrieval-augmented generation: a systematic review, meta-analysis, and clinical development guidelines.

Liu S, McCoy AB, Wright A

핵심 주제

생체 의학 분야에서 검색 증강 생성(RAG)이 대규모 언어 모델(LLM)의 성능을 얼마나 향상시키며, 임상 적용을 위한 표준화된 개발 가이드라인은 무엇인가?

왜 읽어야 하는가

의료 AI 개발자는 이 논문을 통해 RAG가 LLM의 의학적 답변 정확도를 어느 정도 향상시키는지 객관적인 수치로 파악할 수 있다. 특히 임상 환경에서 RAG 기반 LLM을 도입하려는 병원 정보 시스템 담당자나 디지털 치료제(DTx) 개발자는 실제 적용을 위한 구체적인 가이드라인을 얻을 수 있을 것이다.

연구 설계

본 연구는 2023년부터 2024년까지 발표된 RAG와 LLM 관련 논문을 대상으로 PubMed, Embase, PsycINFO 세 가지 데이터베이스에서 체계적인 문헌 검토를 진행했다. 총 335개의 문헌 중 RAG 적용 전후의 LLM 성능을 비교한 20개의 연구를 최종 선정하여 메타 분석을 수행했다. 연구자들은 무작위 효과 모델과 오즈비(odds ratio)를 효과 크기로 사용하여 분석했다.

주요 발견

메타 분석 결과, RAG를 적용한 LLM은 기존 LLM 대비 성능이 1.35배(95% 신뢰 구간: 1.19-1.53, P = .001) 향상되는 유의미한 효과를 보였다. 이는 RAG가 LLM의 환각(hallucination) 문제를 줄이고 의학적 정확성을 높이는 데 실질적으로 기여함을 의미한다. 그러나 연구는 다양한 임상 작업, 기본 LLM, 검색 소스 및 전략, 평가 방법론의 이질성을 지적하며, 효과 크기 자체보다는 이러한 구현 세부 사항이 실제 성능에 더 큰 영향을 미칠 수 있음을 시사한다.

논문 원문