Метод оцінювання ідентичності тексту
DOI: 10.31673/2412-4338.2018.044752
Анотація
Розглянуто сутність плагіату та основні його прояви. Зосереджено увагу на причинах виникнення плагіату. З’ясовано, що появі плагіату сприяють швидкий розвиток Інтернету, збільшення ресурсів та полегшення доступу до цих ресурсів. Наведено основні види плагіату, представлено класифікацію його за категоріями та способами прояву. Акцентовано увагу на необхідності розробки ефективних засобів виявлення та запобігання плагіату. Зроблено формалiзовану постановку задачi стосовно аналізу оцінювання ідентичності багатомовного тексту під час виявлення плагіату. Окреслено низку проблем, що виникають під час оцінювання ідентичності тексту та виявлення плагіату. Визначено, що основні труднощі в оцінюванні ідентичності тексту виникають через різній структурі речень і неоднозначність виявлення перекладу в текстах на різних мовах. Охарактеризовано існуючі методи оцінювання подібності між двома документами та зосереджено увагу на їх недоліках та обмеженнях. Визначено, що основний недолік існуючих методів оцінювання подібності між двома документами полягає в неможливості порівняння рядків тексту різної довжини. З метою уникнення цього недоліку запропоновано метод оцінювання ідентичності двох рядків довільної довжини шляхом вирівнювання тексту до "єдиної" мови. Докладно описано алгоритм запропонованого методу на конкретному прикладі. Доведено, що запропонований метод є ефективним при аналізі тестових текстів. Зазначено, що перевагою такого методу є здатність до перевірки текстів на різних мовах шляхом їх порівняння за контекстом. Запропонований метод може бути використаний при побудові програмних систем анти плагіату загального використання.
Ключові слова: системний плагіат, запозичення фрагментів; виявлення плагіату; незаконне запозичення, аналіз оцінювання ідентичності, порівняння за контекстом.
Список використаної літератури
1. Болілий В. О. Перевірка унікальності тексту при оцінюванні студентських робіт творчого або дослідницького характеру / В. О. Болілий, В. В. Копотій // Наукoві записки НДУ ім. М. Гоголя. Серія: Психолого-педагогічні науки : зб. наук. пр. / Ніжин. Держ. Ун-т ім. М. Гоголя. – Ніжин, 2011. – № 7. – С. 134–145.
2. Блейхут Р. Теория и практика кодов, контролирующих ошибки / Р. Блейхут // Москва: Мир, 1986. ‒ 576 с.
3. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов / В. И. Левенштейн // Доклады Академии Наук СССР, 1965. 163.4:845-848.
4. Маннинг К. Д. Введение в информационный поиск / К. Д. Маннинг, П. Рагхаван, X. Шютце. ‒ Москва: ООО «И.Д. Вильямс», 2011. ‒ 528 с.
5. Воронин Ю. А. Начала теории сходства / Ю. А Воронин // Новосибирск: Наука, Сибирское отделение, 1991. ‒ 128 с.
6. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines/ P. Jaccard // Bull. Soc. Vaudoise sci. Natur. 1991. V. 37. Bd. 140. P. 241-272.
7. Комарницкая О. И. Совершенствование алгоритма латентно–семантического анализа нечеткой текстовой информации / О. И. Комарницкая // Современный научный вестник. 2014. № 29(225). Серия: Фил. Науки. Белгород: Руснаучкнига. – С. 58–62.
8. Шостак И. В. Компьютеризация процесса выявления плагиата в студенческих работах / И. В. Шостак, И. В. Груздо // Сборник научных трудов Военного института Киевского национального университета имени Тараса Шевченко. Киев, 2013. Вып. 41. – C. 99–109.