Using Large Language Models to Detect Depression From User-Generated Diary Text Data as a Novel Approach in Digital Mental Health Screening: Instrument Validation Study.
Shin D, Kim H, Lee S, Cho Y, Jung W
핵심 주제
대규모 언어 모델(LLM)이 사용자 생성 일기 텍스트 데이터를 통해 우울증을 효과적으로 탐지하여 디지털 정신 건강 선별 도구로 활용될 수 있는가?
왜 읽어야 하는가
기존 우울증 선별 도구의 객관성과 정확성 한계를 고려할 때, 이 연구는 LLM 기반의 디지털 정신 건강 스크리닝 및 모니터링 도구 개발에 중요한 통찰을 제공한다. 디지털 치료제(DTx) 개발자와 임상 의사결정 지원 AI 솔루션 기획자들은 사용자 일기 텍스트를 활용한 우울증 조기 발견 및 개입 효율성 증대 가능성에 주목해야 할 것이다.
연구 설계
91명의 참가자가 2주간 일기 작성 앱을 사용했으며, 이 기간 전후로 PHQ와 BSSI를 통해 우울증 및 자살 위험도를 평가했다. 연구진은 참가자들이 작성한 일기 텍스트 데이터를 활용하여 GPT-3.5와 GPT-4 모델의 우울증 탐지 성능을 비교했으며, GPT-3.5의 미세 조정(fine-tuning) 여부와 프롬프트 기법(chain-of-thought, zero-shot)에 따른 모델 효율성 변화를 분석했다.
주요 발견
GPT-3.5를 훈련 데이터로 미세 조정했을 때 우울증 탐지 정확도 0.902, 특이도 0.955로 가장 우수한 성능을 보였다. 미세 조정 및 프롬프트 기법을 적용하지 않은 GPT-3.5도 균형 정확도 0.844, 재현율 0.929를 달성하며 주목할 만한 잠재력을 드러냈다. 이는 사용자 생성 일기 텍스트 데이터가 우울증 탐지를 위한 유의미한 임상적 지표가 될 수 있음을 시사하지만, 소규모 참가자 수를 고려할 때 실제 임상 환경 도입 전 더 대규모의 다양한 인구 집단을 대상으로 한 엄격한 검증이 필요해 보인다.