МЕТОД АДАПТИВНОГО ФОРМУВАННЯ ВИНАГОРОДИ ЗА УМОВ НЕВИЗНАЧЕНОСТІ ДИНАМІЧНИХ ОБ’ЄКТІВ: DOI: 10.31673/2412-4338.2026.019003

Людмила Дмитрівна Ганенко

doi:10.31673/2412-4338.2026.019003

Автор(и)

Людмила Дмитрівна Ганенко, (Hanenko Liudmyla) Державний університет інформаційно-комунікаційних технологій, Київ, Україна https://orcid.org/0000-0003-2219-8196

DOI:

https://doi.org/10.31673/2412-4338.2026.019003

Анотація

У дослідженні обґрунтовано метод адаптивного формування винагороди для навігації автономних мобільних роботів у динамічних соціальних середовищах. Запропонований підхід дозволяє ефективно моделювати поведінку робота в умовах високої невизначеності, створеної непередбачуваним рухом агентів-людей. Актуальність дослідження зумовлена необхідністю безпечної інтеграції автономних мобільних роботів у людський простір. В таких середовищах робот повинен діяти не лише ефективно, а й соціально прийнятно.

Обмеженням існуючих підходів на основі глибокого навчання з підкріпленням (DRL), є використання функцій винагороди з фіксованими ваговими коефіцієнтами. Такий підхід не дозволяє роботу гнучко адаптуватися до змін середовища. Налаштування на досягнення цілі призводить до підвищеного ризику зіткнень, тоді як пріоритет безпеки часто спричиняє проблему «замороженого робота» та поведінку, яка знижує загальну ефективність системи.

Запропонований підхід розв’язує зазначену проблему шляхом інтеграції архітектури проксимальної оптимізації політики (PPO) з модулем імовірнісного прогнозування. Модуль імовірнісного прогнозування побудовано на основі рекурентної нейронної мережі LSTM, яка кодує часові залежності руху агентів, та мережі суміші густин (MDN), яка дозволяє моделювати мультимодальність людської поведінки. Вихідний шар MDN генерує параметри суміші нормальних розподілів.

Запропоновано механізм динамічно-адаптивного зважування компонентів функції винагороди. Система автоматично регулює баланс між конкурентними цілями. У ситуаціях з високою невизначеністю прогнозу поведінки агентів-людей вагові коефіцієнти безпеки та соціального комфорту нелінійно зростають, змушуючи агента діяти обережніше. І навпаки, коли наміри агентів-людей є більш передбачуваними, система підвищує пріоритет ефективності руху.

Експериментальні дослідження методу підтвердили ефективність запропонованої архітектури.

Ключові слова: інформаційні технології, моделювання, методи машинного навчання, методи навчання з підкріпленням, автономні мобільні роботи, навігація мобільних роботів.

Список використаної літератури

Gupta, A., Johnson, J., Fei-Fei, L., Savarese, S., & Alahi, A. (2018). Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks. У 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. https://doi.org/10.1109/cvpr.2018.00240
Xiang, W., YIN, H., Wang, H., & Jin, X. (2024). SocialCVAE: Predicting Pedestrian Trajectory via Interaction Conditioned Latents. Proceedings of the AAAI Conference on Artificial Intelligence, 38(6), 6216–6224. https://doi.org/10.1609/aaai.v38i6.28439
Kosaraju, V., Sadeghian, A., Martín-Martín, R., Reid, I., Rezatofighi, H., & Savarese, S. (2019). Social-bigat: Multimodal trajectory forecasting using bicycle-gan and graph attention networks. Advances in neural information processing systems, 32. https://proceedings.neurips.cc/paper/2019/file/d09bf41544a3365a46c9077ebb5e35c3-Paper.pdf
Li, K., Xu, Y., Wang, J., & Meng, M. Q. H. (2019). SARL∗: Deep Reinforcement Learning based Human-Aware Navigation for Mobile Robot in Indoor Environments. У 2019 IEEE International Conference on Robotics and Biomimetics (ROBIO). IEEE. https://doi.org/10.1109/robio49542.2019.8961764
Cao, M., Xu, X., Yang, Y., Li, J., Jin, T., Wang, P., Hung, T.-Y., Lin, G., & Xie, L. (2025). Learning Dynamic Weight Adjustment for Spatial-Temporal Trajectory Planning in Crowd Navigation. У 2025 IEEE International Conference on Robotics and Automation (ICRA) (с. 8196–8202). IEEE. https://doi.org/10.1109/icra55743.2025.11128766
He, J., Zhao, D., Liu, T., Zou, Q., & Xie, J. (2025). Research on Adaptive Reward Optimization Method for Robot Navigation in Complex Dynamic Environment. Computers, Materials & Continua, 1–10. https://doi.org/10.32604/cmc.2025.065205
Alshammari, A. B. (2025). Dynamic Rewards in Reinforcement Learning for Robotic Navigation. Engineering, Technology & Applied Science Research, 15(4), 25766–25771. https://doi.org/10.48084/etasr.11986
Choi, S., Lee, K., Lim, S., & Oh, S. (2018). Uncertainty-aware learning from demonstration using mixture density networks with sampling-free variance modeling. 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 6915–6922.
https://doi.org/10.48550/arXiv.1709.02249
Ганенко, Л., & Жебка, В. (2025). Модель соціально-адаптивної навігації мобільного робота з використанням методів навчання з підкріпленням. Електронне фахове наукове видання «Кібербезпека: освіта, наука, техніка», 1(29), 559-570. https://doi.org/10.28925/2663-4023.2025.29.907
Ганенко, Л. & Бушма, О. (2025). Метод навчання автономних мобільних роботів на основі DRL та Curriculum Learning. Електронне фахове наукове видання «Кібербезпека: освіта, наука, техніка», 30(2), 568-582. https://doi.org/10.28925/2663-4023.2025.30.994

МЕТОД АДАПТИВНОГО ФОРМУВАННЯ ВИНАГОРОДИ ЗА УМОВ НЕВИЗНАЧЕНОСТІ ДИНАМІЧНИХ ОБ’ЄКТІВ

DOI: 10.31673/2412-4338.2026.019003

Автор(и)

DOI:

Анотація

##submission.downloads##

Опубліковано

Номер

Розділ

##plugins.block.developedBy.blockTitle##

Мова

Подати статтю