АНАЛІЗ ВАЖЛИВОСТІ ФАКТОРІВ ТА ЕФЕКТИВНОСТІ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ У ПРОГНОЗУВАННІ ВИПАДКІВ ТУБЕРКУЛЬОЗУ В ІНДІЇ
DOI 10.31673/2412-4338.2025.026806
Анотація
Туберкульоз (ТБ) залишається однією з найсерйозніших інфекційних хвороб у світі, а Індія є країною з найвищим тягарем цього захворювання за даними Всесвітньої організації охорони здоров’я (ВООЗ). Висока щільність населення, нерівний доступ до медичних послуг, соціально-економічні умови та супутні захворювання, такі як діабет, створюють сприятливе середовище для поширення туберкульозу. У цьому дослідженні проведено аналіз важливості факторів, що впливають на захворюваність на туберкульоз в Індії, та оцінено ефективність моделей машинного навчання для прогнозування випадків захворювання. Метою роботи є виявлення ключових детермінант поширення туберкульозу та розробка науково обґрунтованих рекомендацій для зменшення епідеміологічного навантаження в регіоні.
Дослідження базується на даних за 2019–2022 роки, зібраних із відкритих джерел, зокрема баз ВООЗ та урядових звітів Індії. Набір даних включає 126 записів і 25 змінних, серед яких показники діагностики (кількість виявлених випадків ТБ, мультирезистентний ТБ, ТБ-ВІЛ коінфекція), соціальні фактори (вживання тютюну, алкоголю), інфраструктура медичних закладів, а також результати лікування (успішність, смертність, переривання терапії). Для аналізу використано описову статистику, кореляційний аналіз, множинну лінійну регресію з L1/L2 регуляризацією (Ridge, Lasso) та нелінійні методи машинного навчання, зокрема дерева рішень (Decision Tree), метод найближчих сусідів (KNN), метод опорних векторів (SVM) і випадковий ліс (Random Forest). Точність моделей оцінювалась за допомогою крос-валідації, використовуючи метрики R² (коефіцієнт детермінації) та MSE (середньоквадратична помилка).
Результати кореляційного аналізу показали відсутність сильних лінійних зв’язків між факторами та загальною кількістю випадків ТБ, що вказує на нелінійну природу залежностей. Множинна лінійна регресія продемонструвала низьку пояснювальну здатність (R² ≈ 0.3), а регуляризовані методи (Lasso з α = 0.01) дещо покращили узагальнення (R² = 0.1007). Найвищу точність серед лінійних моделей показали фактори, пов’язані з кількістю зареєстрованих випадків серед чоловіків і жінок, а також діагностикою мультирезистентного ТБ. Нелінійні моделі виявилися ефективнішими: початковий аналіз показав, що Random Forest (R² = 0.4595 на тестових даних) перевершує KNN і SVM, тоді як Decision Tree страждав від перенавчання (R² = -0.3044 на тестових даних).
Для підвищення точності було запропоновано нову цільову змінну – нормалізовану кількість випадків ТБ на 100 000 населення (total_inf), що враховує чисельність населення штатів. Після цього точність моделей значно зросла: Decision Tree досяг R² = 0.8724, а Random Forest – R² = 0.8378 на тестових даних. Факторний аналіз підтвердив, що ключовими предикторами є діагностика мультирезистентного ТБ (MDR/RR TB Diagnosed) та інфраструктура центрів лікування (PMDTInfrastructure), що відображає важливість медичних ресурсів і своєчасного виявлення резистентних форм захворювання.
Ключові слова: туберкульоз, Індія, машинне навчання, множинна лінійна регресія, випадковий ліс, дерево рішень, SHAP-аналіз, соціально-економічні фактори, мультирезистентний туберкульоз, прогнозування захворюваності.