ЗАСТОСУВАННЯ МЕТОДІВ НАВЧАННЯ З ПІДКРІПЛЕННЯМ ДЛЯ ПЛАНУВАННЯ ШЛЯХУ МОБІЛЬНИХ РОБОТІВ
DOI: 10.31673/2412-4338.2024.011625
Анотація
Розвиток та впровадження автономних мобільних роботів у різноманітні сфери людського життя стало актуальним завданням сьогодення. Навчання з підкріпленням (Reinforcement Learning — RL) є потужним інструментом для оптимізації навчання та прийняття рішень агентами в реальних умовах. Використання RL стає ключовим аспектом для досягнення ефективності та надійності робототехнічних систем. Навчання з підкріпленням може застосовують у плануванні шляху мобільного робота в складних та динамічних середовищах, для навчання мобільного робота приймати рішення щодо вибору напрямку руху, швидкості та здійснення маневрів на основі показників датчиків, для прийняття рішень щодо ефективного використання енергетичних ресурсів та максимізації часу роботи. Агент може навчатися оптимальним маршрутам, уникати перешкоди та ефективно досягати своїх цілей. В статті розглянуто застосування методів навчання з підкріпленням для оптимізації планування шляху мобільних роботів. Подано класифікацію методів на основі моделі середовища та методів без моделі середовища. Розглянуто методи на основі цінності, на основі політики та методи актора-критика. Зокрема проведено аналіз таких методів навчання з підкріпленням, як Q-learning, Deep Q-Networks (DQN), Double Deep Q-Network (DDQN), алгоритмів актора-критика Advantage Actor-Critic (A2C), Deep Deterministic Policy Gradient (DDPG), Asynchronous Advantage Actor-Critic (A3C), Soft actor-critic (SAC) ) та Proximal Policy Optimization (PPO). Дані методи проаналізовано в контексті їх застосування до розв’язання завдань планування шляху мобільного робота в різних середовищах. Досліджено переваги та недоліки використання зазначених методів навчання з підкріпленням в плануванні шляху із врахуванням аспектів ефективності, безпеки та адаптивності. Увага приділяється вирішенню проблем підвищення швидкості та стійкості навчання, ефективної навігації у складних та змінних умовах, де традиційні методи можуть бути неефективними. Запропоновано перспективи для майбутніх досліджень та розвитку даного напрямку в наукових роботах.
Ключові слова: машинне навчання, методи навчання з підкріпленням, мобільні роботи, планування шляху, інформаційна технологія, інформаційна система, модель, алгоритм.
Список використаної літератури
1. Kober J, Bagnell JA, Peters J. Reinforcement learning in robotics: A survey. The International Journal of Robotics Research. 2013. Vol. 32, 1
2. Rybczak, M.; Popowniak, N.; Lazarowska, A. A Survey of Machine Learning Approaches for Mobile Robot Control. Robotics. 2024, Vol.13, №1. P.12-22.
3. Gao, J.; Ye, W.; Guo, J.; Li, Z. Deep Reinforcement Learning for Indoor Mobile Robot Path Planning. Sensors 2020. № 20, 5493.
4. Tai L., Paolo G., Liu M., Virtual-to-real deep reinforcement learning: Continuous control of mobile robots for mapless navigation, 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Vancouver, Canada. 2017, P. 31-36,
5. Zhao Y., Zhang Y., Wang S. A Review of Mobile Robot Path Planning Based on Deep Reinforcement Learning Algorithm. Journal of Physics: Conference Series, Vol. 2138, International Conference on Artificial Intelligence and Big Data Applications (ICAIBD 2021) 24-25
6. Wang W., Wu Zh., Luo H., Zhang B. Path Planning Method of Mobile Robot Using Improved Deep Reinforcement Learning. Journal of Electrical and Computer Engineering, vol. 2022. P. 7.
7. Zheng, J.; Mao, S.; Wu, Z.; Kong, P.; Qiang, H. Improved Path Planning for Indoor Patrol Robot Based on Deep Reinforcement Learning. Symmetry 2022, № 14, 132.
8. Xin J., Zhao H., Liu D., Li M., Application of deep reinforcement learning in mobile robot path planning, Chinese Automation Congress (CAC), Jinan, China, 2017, p. 7112-7116.
9. Low Ee S., Ong P., Cheah K. Ch., Solving the optimal path planning of a mobile robot using improved Q-learning. Robotics and Autonomous Systems, 2019, Vol. 115, P. 143-161.
10. Jiang Q. Path Planning Method of Mobile Robot Based on Q-learning. Journal of Physics: Conference Series, International Symposium on Artificial Intelligence and Intelligent Manufacturing (AIIM 2021) 12/11/2021 - 14/11/2021 Huzhou 2022. Vol. 2181.
11. Khriji L, Touati F, Benhmed K, Al-Yahmedi A. Mobile Robot Navigation Based on Q-Learning Technique. International Journal of Advanced Robotic Systems. 2011. Vol.8 №1.
12. Singh, R.; Ren, J.; Lin, X. A Review of Deep Reinforcement Learning Algorithms for Mobile Robot Path Planning. Vehicles. 2023. № 5, P. 1423-1451.
13. Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. Proximal policy optimization algorithms. 2017. №5. P. 56-67.
14. Srikonda S.; Norris W.R.; Nottage D.; Soylemezoglu A. Deep Reinforcement Learning for Autonomous Dynamic Skid Steer Vehicle Trajectory Tracking. Robotics. 2022, № 11, P. 95.
15. Xing X., Ding H., Liang Zh., Li B., Yang Zh., Robot path planner based on deep reinforcement learning and the seeker optimization algorithm, Mechatronics, 2022. Vol. 88. P. 102918
16. Zhang, Y.; Chen, P. Path Planning of a Mobile Robot for a Dynamic Indoor Environment Based on an SAC-LSTM Algorithm. Sensors 2023. № 23, P. 9802.
17. Ганенко Л. Д., Жебка В.В. Аналітичний огляд питань навігації мобільних роботів в закритих приміщеннях. Телекомунікаційні та інформаційні технології. 2023. № 3(80). Ст. 85-98.
18. Malinov V., Zhebka V., Zolotukhina O., Franchuk T., Chubaievskyi V. Biomining as an Effective Mechanism for Utilizing the Bioenergy Potential of Processing Enterprises in the Agricultural Sector. CEUR Workshop Proceedings. 2023, 3421, p. 223–230