Аналіз інформації у задачах консолідації даних з відкритих джерел
DOI №________________
Анотація
Розглядаються питання та можливості використання існуючих алгоритмів синтаксичного аналізу для отримання та консолідації даних з відкритих джерел для моніторингу екологічної ситуації в Україні. В основі консолідації лежить процес збору та організації зберігання даних у вигляді, оптимальному з точки зору їх подальшої обробки. Проведено аналіз основних алгоритмів парсинга, що існують на сьогодні, було проведено дослідження і зроблені висновки, в яких випадках той чи інший алгоритм краще використовувати. Для проведення аналізу було використано декілька методів з реалізацією на PHP 7 версії. Інструментом тестування була HTML форма з вибором веб-документа за допомогою AJAX запитів при обмеженні часу виконання одного запиту. Інструменти тестування всіх засобів парсинга розроблені за допомогою сценаріїв bash і PHP в операційній системі Linux і за допомогою пакетних файлів batch, сценаріїв PowerShell і PHP в Windows. Проведено дослідження щодо часу роботи та використання пам'яті в залежності від кількості ітерацій. У статті приведені обрані для тестування веб-документи і їх характеристики (формат, розмір, URL). Для кожного засобу парсинга було проведено тестування з кожним з веб-документів при п'яти різних варіантах їх обробки. На підставі проведеного аналізу зроблено висновок, що для вирішення задач консолідації інформації з відкритих джерел найбільш відповідним та ефективним може бути використання засоби парсинга зі зберіганням ієрархії елементів. Такі засоби надають найбільш зручний спосіб доступу до елементів веб-документа за допомогою запитів (CSS і XPath) і підходять для виконання багаторазових запитів у задачах консолідації інформації з відкритих джерел для моніторингу екологічної ситуації в Україні.
Ключові слова: консолідація даних, моніторинг, алгоритми парсингу, кількість ітерацій.
Список використаної літератури (ДСТУ)
1. Kuzminykh V. Using stochastic automation for data consolidation / V. Kuzminykh, O. Koval, D. Khaustov // Research Bulletin of NTUU "KPI". Engineering. – 2017. – №2. – С. 29-36.
2. Шаховська Н. Б. Методи опрацювання консолідованих даних за допомогою просторів даних/ Н. Б. Шаховська // Проблеми програмування. ‒ 2011. ‒ № 4. ‒ С. 72-84.
3. Черняк Л. Большие данные ‒ новая теория и практика / Л. Черняк // Москва: Открытые системы. ‒ 2011. ‒ № 10. ‒ С. 36-41.
4. Schrenk M. Webbots, spiders, and screen scrapers: a guide to developing internet agents with PHP/CURL. / M. Schrenk // No Starch Press Inc. ‒ 2012. 362 p.
5. Бенчмарк HTML парсеров [Електронний ресурс] // Сайт «Хабрахабр». – 2012. URL: https://habrahabr.ru/post/163979/.
6. Морган К. XML для PHP-разработчиков: Часть 2. Расширенные методы парсинга XML: [Електронний ресурс] / К. Морган // Сообщество developerWorks. ‒ 2010. URL: http://www.ibm.com/developerworks/ru/library/x-xmlphp2/index.html.
7. Расти Хэролд Э. [Rusty Harold E.] Синтаксический анализ XML в PHP: [Електронний ресурс] // Сообщество developerWorks. ‒ 2007. URL: http://www.ibm.com/developerworks/ru/library/xpullparsingphp/index.html.
8. Kuzminykh V. O., Koval A. V., Osypenko M. V. Methods of machine training on the basis of stochastic automatic devices in the tasks of consolidation of data from unsealed sources [Електронний ресурс] / V. O. Kuzminykh, A. V. Koval, M. V. Osypenko // CEUR Workshop Proceedings - Vol-2067 urn:nbn:de:0074-2067-8. ‒ 2017. ‒ P. 63-68. URL: [http://ceur-ws.org/Vol2067/paper9.pdf]