Analysis of information in the tasks of consolidating from open sources

С. І. Отрох; В. О. Кузьміних; Є. Ю. Швець

Отрох С. І. (Otrokh S. I.) Державний університет телекомунікацій, Київ
Кузьміних В. О. (Kuzminykh V. O.) НТУУ «КПІ ім. Ігоря Сікорського», Київ
Швець Є. Ю. (Shvets Ye. Yu.) НТУУ «КПІ ім. Ігоря Сікорського», Київ

Анотація

Розглядаються питання та можливості використання існуючих алгоритмів синтаксичного аналізу для отримання та консолідації даних з відкритих джерел для моніторингу екологічної ситуації в Україні. В основі консолідації лежить процес збору та організації зберігання даних у вигляді, оптимальному з точки зору їх подальшої обробки. Проведено аналіз основних алгоритмів парсинга, що існують на сьогодні, було проведено дослідження і зроблені висновки, в яких випадках той чи інший алгоритм краще використовувати. Для проведення аналізу було використано декілька методів з реалізацією на PHP 7 версії. Інструментом тестування була HTML форма з вибором веб-документа за допомогою AJAX запитів при обмеженні часу виконання одного запиту. Інструменти тестування всіх засобів парсинга розроблені за допомогою сценаріїв bash і PHP в операційній системі Linux і за допомогою пакетних файлів batch, сценаріїв PowerShell і PHP в Windows. Проведено дослідження щодо часу роботи та використання пам'яті в залежності від кількості ітерацій. У статті приведені обрані для тестування веб-документи і їх характеристики (формат, розмір, URL). Для кожного засобу парсинга було проведено тестування з кожним з веб-документів при п'яти різних варіантах їх обробки. На підставі проведеного аналізу зроблено висновок, що для вирішення задач консолідації інформації з відкритих джерел найбільш відповідним та ефективним може бути використання засоби парсинга зі зберіганням ієрархії елементів. Такі засоби надають найбільш зручний спосіб доступу до елементів веб-документа за допомогою запитів (CSS і XPath) і підходять для виконання багаторазових запитів у задачах консолідації інформації з відкритих джерел для моніторингу екологічної ситуації в Україні.

Ключові слова: консолідація даних, моніторинг, алгоритми парсингу, кількість ітерацій.

Список використаної літератури (ДСТУ)
1. Kuzminykh V. Using stochastic automation for data consolidation / V. Kuzminykh, O. Koval, D. Khaustov // Research Bulletin of NTUU "KPI". Engineering. – 2017. – №2. – С. 29-36.
2. Шаховська Н. Б. Методи опрацювання консолідованих даних за допомогою просторів даних/ Н. Б. Шаховська // Проблеми програмування. ‒ 2011. ‒ № 4. ‒ С. 72-84.
3. Черняк Л. Большие данные ‒ новая теория и практика / Л. Черняк // Москва: Открытые системы. ‒ 2011. ‒ № 10. ‒ С. 36-41.
4. Schrenk M. Webbots, spiders, and screen scrapers: a guide to developing internet agents with PHP/CURL. / M. Schrenk // No Starch Press Inc. ‒ 2012. 362 p.
5. Бенчмарк HTML парсеров [Електронний ресурс] // Сайт «Хабрахабр». – 2012. URL: https://habrahabr.ru/post/163979/.
6. Морган К. XML для PHP-разработчиков: Часть 2. Расширенные методы парсинга XML: [Електронний ресурс] / К. Морган // Сообщество developerWorks. ‒ 2010. URL: http://www.ibm.com/developerworks/ru/library/x-xmlphp2/index.html.
7. Расти Хэролд Э. [Rusty Harold E.] Синтаксический анализ XML в PHP: [Електронний ресурс] // Сообщество developerWorks. ‒ 2007. URL: http://www.ibm.com/developerworks/ru/library/xpullparsingphp/index.html.
8. Kuzminykh V. O., Koval A. V., Osypenko M. V. Methods of machine training on the basis of stochastic automatic devices in the tasks of consolidation of data from unsealed sources [Електронний ресурс] / V. O. Kuzminykh, A. V. Koval, M. V. Osypenko // CEUR Workshop Proceedings - Vol-2067 urn:nbn:de:0074-2067-8. ‒ 2017. ‒ P. 63-68. URL: [http://ceur-ws.org/Vol2067/paper9.pdf]

Аналіз інформації у задачах консолідації даних з відкритих джерел

DOI №________________

Анотація