Robust Neural Machine Translation for Abugidas by Glyph Perturbation.
Hour Kaing, Chenchen Ding, Hideki Tanaka, Masao Utiyama
핵심 주제
Abugida 문자 체계를 사용하는 언어의 신경망 기계 번역(NMT) 시스템은 글리프(glyph) 변형에 대해 어떻게 견고성을 확보할 수 있는가?
왜 읽어야 하는가
문자 인식(OCR) 시스템의 후처리 단계나 저자원 언어 번역 시스템을 개발하는 엔지니어에게 특히 유용하다. 실제 환경에서 발생하는 입력 오류나 다양한 글꼴 변형에 강건한 번역 모델을 구축하는 데 실질적인 통찰을 제공할 것이다.
연구 설계
본 연구는 Abugida 문자 체계를 사용하는 언어의 신경망 기계 번역(NMT) 모델 견고성 향상을 목표로, 훈련 과정에 글리프 섭동(perturbation) 기법을 도입한다. 이 핵심 차별점은 훈련 데이터의 입력 글리프에 의도적으로 문자 단위 또는 그 이하 수준의 노이즈를 주입하여, 모델이 실제 환경의 오염된 입력에 더욱 강건하게 대응하도록 학습시키는 방식이다. 글리프 섭동은 특정 Abugida 언어쌍 데이터셋에 적용되며, 문자의 일부를 변경하거나 획을 제거하고, 다이어크리틱을 조작하는 등 다양한 방식으로 구현될 수 있다. 모델의 성능은 표준 BLEU 점수와 chrF 지표를 활용하여, 클린 및 섭동된 테스트 세트 모두에서 평가된다.
주요 발견
글리프 섭동 기법을 적용하여 훈련된 NMT 모델은 섭동되지 않은 기존 모델 대비, 노이즈가 포함된 Abugida 입력에 대해 월등히 향상된 번역 품질을 보였다. 특히, 미묘한 문자 변형이나 누락된 다이어크리틱이 있는 경우에도 번역 성능의 급격한 저하를 막아내는 데 효과적이었다. 하지만 이 접근 방식은 글리프 섭동의 유형과 강도를 신중하게 설계해야 하며, 과도한 섭동은 오히려 모델의 일반화 능력을 저해할 수 있다는 한계가 존재한다. 이는 단순히 데이터를 늘리는 것을 넘어, 실제 노이즈 시나리오를 효과적으로 모델링하는 것이 중요함을 시사하며, 복잡한 문자 체계에 대한 딥러닝 모델의 견고성 연구에 실질적인 방향을 제시한다.