МЕТОД АДАПТИВНОГО ФОРМУВАННЯ ВИНАГОРОДИ ЗА УМОВ НЕВИЗНАЧЕНОСТІ ДИНАМІЧНИХ ОБ’ЄКТІВ

DOI: 10.31673/2412-4338.2026.019003

  • Ганенко Людмила Дмитрівна (Hanenko Liudmyla) Державний університет інформаційно-комунікаційних технологій, Київ, Україна https://orcid.org/0000-0003-2219-8196

Анотація

У дослідженні обґрунтовано метод адаптивного формування винагороди для навігації автономних мобільних роботів у динамічних соціальних середовищах. Запропонований підхід дозволяє ефективно моделювати поведінку робота в умовах високої невизначеності, створеної непередбачуваним рухом агентів-людей. Актуальність дослідження зумовлена необхідністю безпечної інтеграції автономних мобільних роботів у людський простір. В таких середовищах робот повинен діяти не лише ефективно, а й соціально прийнятно.

Обмеженням існуючих підходів на основі глибокого навчання з підкріпленням (DRL), є використання функцій винагороди з фіксованими ваговими коефіцієнтами. Такий підхід не дозволяє роботу гнучко адаптуватися до змін середовища. Налаштування на досягнення цілі призводить до підвищеного ризику зіткнень, тоді як пріоритет безпеки часто спричиняє проблему «замороженого робота» та поведінку, яка знижує загальну ефективність системи.

Запропонований підхід розв’язує зазначену проблему шляхом інтеграції архітектури проксимальної оптимізації політики (PPO) з модулем імовірнісного прогнозування. Модуль імовірнісного прогнозування побудовано на основі рекурентної нейронної мережі LSTM, яка кодує часові залежності руху агентів, та мережі суміші густин (MDN), яка дозволяє моделювати мультимодальність людської поведінки. Вихідний шар MDN генерує параметри суміші нормальних розподілів.

Запропоновано механізм динамічно-адаптивного зважування компонентів функції винагороди. Система автоматично регулює баланс між конкурентними цілями. У ситуаціях з високою невизначеністю прогнозу поведінки агентів-людей вагові коефіцієнти безпеки та соціального комфорту нелінійно зростають, змушуючи агента діяти обережніше. І навпаки, коли наміри агентів-людей є більш передбачуваними, система підвищує пріоритет ефективності руху.

Експериментальні дослідження методу підтвердили ефективність запропонованої архітектури.

Ключові слова: інформаційні технології, моделювання, методи машинного навчання, методи навчання з підкріпленням, автономні мобільні роботи, навігація мобільних роботів.

Список використаної літератури

  1. Gupta, A., Johnson, J., Fei-Fei, L., Savarese, S., & Alahi, A. (2018). Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks. У 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. https://doi.org/10.1109/cvpr.2018.00240
  2. Xiang, W., YIN, H., Wang, H., & Jin, X. (2024). SocialCVAE: Predicting Pedestrian Trajectory via Interaction Conditioned Latents. Proceedings of the AAAI Conference on Artificial Intelligence38(6), 6216–6224. https://doi.org/10.1609/aaai.v38i6.28439
  3. Kosaraju, V., Sadeghian, A., Martín-Martín, R., Reid, I., Rezatofighi, H., & Savarese, S. (2019). Social-bigat: Multimodal trajectory forecasting using bicycle-gan and graph attention networks. Advances in neural information processing systems32. https://proceedings.neurips.cc/paper/2019/file/d09bf41544a3365a46c9077ebb5e35c3-Paper.pdf
  4. Li, K., Xu, Y., Wang, J., & Meng, M. Q. H. (2019). SARL∗: Deep Reinforcement Learning based Human-Aware Navigation for Mobile Robot in Indoor Environments. У 2019 IEEE International Conference on Robotics and Biomimetics (ROBIO). IEEE. https://doi.org/10.1109/robio49542.2019.8961764 
  5. Cao, M., Xu, X., Yang, Y., Li, J., Jin, T., Wang, P., Hung, T.-Y., Lin, G., & Xie, L. (2025). Learning Dynamic Weight Adjustment for Spatial-Temporal Trajectory Planning in Crowd Navigation. У 2025 IEEE International Conference on Robotics and Automation (ICRA) (с. 8196–8202). IEEE. https://doi.org/10.1109/icra55743.2025.11128766
  6. He, J., Zhao, D., Liu, T., Zou, Q., & Xie, J. (2025). Research on Adaptive Reward Optimization Method for Robot Navigation in Complex Dynamic Environment. Computers, Materials & Continua, 1–10. https://doi.org/10.32604/cmc.2025.065205
  7. Alshammari, A. B. (2025). Dynamic Rewards in Reinforcement Learning for Robotic Navigation. Engineering, Technology & Applied Science Research15(4), 25766–25771. https://doi.org/10.48084/etasr.11986
  8. Choi, S., Lee, K., Lim, S., & Oh, S. (2018). Uncertainty-aware learning from demonstration using mixture density networks with sampling-free variance modeling. 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 6915–6922.
    https://doi.org/10.48550/arXiv.1709.02249
  9. Ганенко, Л., & Жебка, В. (2025). Модель соціально-адаптивної навігації мобільного робота з використанням методів навчання з підкріпленням. Електронне фахове наукове видання «Кібербезпека: освіта, наука, техніка», 1(29), 559-570. https://doi.org/10.28925/2663-4023.2025.29.907
  10. Ганенко, Л. & Бушма, О. (2025). Метод навчання автономних мобільних роботів на основі DRL та Curriculum Learning. Електронне фахове наукове видання «Кібербезпека: освіта, наука, техніка»30(2), 568-582. https://doi.org/10.28925/2663-4023.2025.30.994
Номер
Розділ
Статті