Detecting Paroxysmal Atrial Fibrillation From an Electrocardiogram in Sinus Rhythm: External Validation of the AI Approach.
Gruwez H, Barthels M, Haemers P, Verbrugge FH, Dhont S, Meekers E, Wouters F, Nuyens D, Pison L, Vandervoort P, Pierlet N
핵심 주제
정상 동률동(sinus rhythm) 심전도(ECG)를 통해 잠재적인 발작성 심방세동(paroxysmal AF)을 식별하는 AI 알고리즘의 외부 유효성은 충분히 입증될 수 있는가?
왜 읽어야 하는가
발작성 심방세동은 진단이 어렵고 심각한 합병증을 유발하기에, 정상 동률동 심전도만으로 이를 예측하는 AI는 디지털 헬스 스크리닝 도구 개발 및 심혈관 질환 위험 계층화에 혁신적인 변화를 가져올 수 있다. 특히, 실제 임상 환경에서의 외부 유효성 검증은 AI 모델의 실용성과 신뢰도를 판단하는 중요한 기준이 된다. 이 연구는 현장 적용 가능성에 대한 비판적 통찰을 제공할 것이다.
연구 설계
이 연구는 총 142,310명의 환자에게서 얻은 494,042개의 정상 동률동(SR) 심전도(ECG) 데이터를 활용하여 AI 알고리즘을 훈련하고 검증했다. 내부 데이터는 7:1:2 비율로 훈련, 내부 검증, 테스트 세트로 분할했으며, 발작성 심방세동 유병률을 조정한 추가 분석을 수행했다. 최종적으로, 다른 병원 데이터셋을 통해 알고리즘의 외부 유효성을 독립적으로 검증했다.
주요 발견
AI 모델은 정상 동률동 심전도에서 발작성 심방세동을 예측하는 데 AUROC 0.87을 달성했으나, 실제 양성 예측력을 나타내는 AUPRC(Area Under the Precision Recall Curve)는 0.48에 그쳤다. 특히, 심방세동 유병률이 낮은 일반 인구 집단(3%)에서는 AUPRC가 0.21로 현저히 낮아져 광범위한 스크리닝 도구로서의 가치에 의문을 제기한다. 외부 병원에서의 검증 결과는 ‘견고하다’고 언급되었지만, 유병률에 따른 성능 변동성을 고려할 때 실제 임상 적용을 위해서는 진단 정확도에 대한 추가적인 비판적 고찰이 필요하다. 이 결과는 AI가 고위험군 선별에는 유용할 수 있으나, 단독 진단 도구로는 아직 한계가 있음을 시사한다.