Підвищення ефективності оброблення великих обсягів інформації з використанням методу розподіленого аналізу даних

DOI: 10.31673/2412-4338.2021.021523

  • Гордійчук-Бублівська О. В. (Hordiychuk-Bublivsʹka O. V.) Національний університет “Львівська політехніка”, м. Львів
  • Бешлей М. І. (Beshley M. I.) Національний університет “Львівська політехніка”, м. Львів
  • Кирик М. І. (Kyryk M. I.) Національний університет “Львівська політехніка”, м. Львів
  • Климаш М. М. (Klymash M. M.) Національний університет “Львівська політехніка”, м. Львів

Анотація

Для створення ефективних систем оброблення даних слід використовувати різноманітні методи збору, зберігання та аналізу інформації. Щоб вирішити проблеми пошуку потрібної інформації в великих масивах даних, застосовують алгоритми машинного навчання. Враховуючи, що більшість сучасних масштабних інформаційних систем використовують велику кількість обчислювальних пристроїв, значно ефективніше застосовувати розподілені технології оброблення даних. Зокрема, широко використовується розподілене машинне навчання, в якому пристрої тренуються на локальних наборах даних і надсилають глобальній моделі тільки результати роботи. Такий підхід дозволяє підвищити надійність і конфіденційність даних, оскільки інформація про користувача залишається на одному пристрої. У статті також наведено підхід для аналізу великих обсягів інформації за допомогою алгоритму сингулярної декомпозиції даних. Даний алгоритм дозволяє як зменшити обсяг інформації, відкинувши надлишковість, так і передбачати події на основі виявлених закономірностей в даних. Визначено основні особливості розподіленого аналізу даних, можливості використання складних алгоритмів аналізу інформації та машинного навчання в таких системах. Проте, алгоритм сингулярного аналізу даних досить складно реалізувати з врахуванням розподіленої архітектури. Для підвищення ефективності використання даного методу в розподілених системах пропонується спеціальний модифікований алгоритм FedSVD. На основі цього алгоритму дані користувачів збираються з різних пристроїв, проте додається можливість додатково захистити їх від можливого втручання чи перехоплення. Результати роботи можуть бути використані при проектуванні систем для аналізу даних, збільшення надійності використання користувацької інформації, в тому числі в корпоративних інформаційних системах, фінансовій чи ІТ сферах тощо. Запропоновані підходи можуть слугувати основою для розробки інформаційних технологій автоматичного надання користувачам рекомендацій, передбачення аварійних ситуацій на підприємствах.

Ключові слова: великі дані, розподілені системи, машинне навчання, підвищення надійності оброблення інформації.

Список використаних джерел
1. F. Ortega, and A. González-Prieto, “Recommender systems and collaborative filtering,” Appl. Sci., vol. 10, PP. 168-173, 2020.
2. Z. Wang, H. Wu, Z. Jiang, P. Ju, J. Yang, Z. Zhou, and X. Chen, “Singular value decomposition-based load indexes for load profiles clustering,” Transmission Distribution IET Generation, vol. 14, PP. 4164-4172, 2020.
3. M. Khan, Y. Jin, M. Li, Y. Xiang, and C. Jiang, “Hadoop performance modeling for job estimation and resource provisioning,” IEEE Transactions on Parallel and Distributed Systems, vol. 27, PP. 441–454, 2016.
4. K. Sridharan, G. Komarasamy, S. Daniel Madan Raja, “Hadoop framework for efficient sentiment classification using trees,” IET Networks, vol. 9, PP. 223-228, 2020.
5. H. Zhang, Y. Wang, H. Chen, Y. Zhao and J. Zhang, "Exploring machine-learning-based control plane intrusion detection techniques in software defined optical networks," Optical Fiber Technology, vol. 39, PP. 37-42, 2017.
6. M. Prakash, G. Singaravel, “Haphazard, enhanced haphazard and personalised anonymisation for privacy preserving data mining on sensitive data sources,” International Journal of Business Intelligence and Data Mining, vol. 13, no. 4, PP. 456-474, 2018.
7. M. S. Mahdavinejad, M. Rezvan, M. Barekatain, P. Adibi, P. Barnaghi and A.P. Sheth, “Machine learning for Internet of Things data analysis: A survey,” Digital Communications and Networks, Elsevier, vol.3, PP.34-41, 2017.
8. Т.В. Борис, М.О. Алєксєєв, “Порівняльний аналіз технології паралельного обчислення великих масивів даних MapReduce”, Second International Conference “Cluster Computing”, Львів, 2013, С. 1-3.
9. Di Chai, Leye Wang, Lianzhi Fu, Junxue Zhang, Kai Chen, and Qiang Yang, “Federated Singular Vector Decomposition”, arXiv:2105.08925, v1, May, 2021.
10. Di Chai, Leye Wang, Kai Chen, and Qiang Yang. “Secure federated matrix Factorization”, IEEE Intelligent Systems, 2020.
11. Keith Bonawitz, Vladimir Ivanov, Ben Kreuter, Antonio Marcedone, H Brendan McMahan, Sarvar Patel, Daniel Ramage, Aaron Segal, and Karn Seth, “Practical secure aggregation for federated learning on user-held data”. arXiv preprint arXi, v:1611.04482, 2016.

Номер
Розділ
Статті