ВолшебнИИк для страны ОЗ

Автор Юрий ЧЕХОВИЧ, исполнительный директор компании Антиплагиат

ОБНАРУЖЕНИЕ ЗАИМСТВОВАНИЙ И ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

Многолетний опыт разработки и использования системы обнаружения заимствований (ОЗ) указывает на неизменно завышенные ожидания пользователей в отношении результатов её работы.

Чаще всего от систем plagiarism detection (устоявшийся англоязычный термин, который проще всего перевести как «детектор плагиата») ожидают возможностей, присущих скорее бытовым детекторам, — простоты использования и понятности результата.

Это очень похоже, например, на глюкометр — прибор, которым пользуются миллионы больных сахарным диабетом для контроля уровня глюкозы в крови: надо получить каплю крови, нанести её на тест-полоску и прибор покажет число. Далее в соответствии с рекомендациями врача следует решить, принимать лекарство или нет. Всё устроено очень просто, так чтобы прибор могли использовать люди, не обладающие специфическими знаниями и навыками.

От систем ОЗ в целом ожидают чего-то похожего: загружаем документ в систему, получаем оценку «уровня плагиата», принимаем решение. Такие ожидания прослеживаются и в локальных актах российских вузов [1], и в приказах регулятора: «Тексты выпускных квалификационных работ… проверяются на объём заимствования» [2, п. 38]. На оценке доли заимствований в текстах работ основаны решения многих диссертационных советов и научных журналов. Такой подход не является исключительно российским [3]. Зарубежные вузы и журналы широко используют оценки сходства, подобия, уровня плагиата и другие аналогичные метрики для принятия решения о качестве работы.

Многократно обсуждалось, что как решение проблемы этических нарушений в научных и учебных работах в целом, так и оценка качества каждого конкретного документа не могут быть сведены к определению допустимого «уровня плагиата» и измерению его в каждом проверяемом тексте [4].

Сервисы ОЗ создавались как специализированные поисковые системы. Отличия от обычных поисковиков заключались в длине поискового запроса, как правило составляющего десятки и сотни тысяч символов и в формате представления результата, позволяющем пользователю понять, с каким источником совпадает тот или иной фрагмент текста (так называемая раскраска). Очевидно, что работа с такими инструментами даёт возможность понять, есть ли в документе неправомерные заимствования, но требует при этом определённой квалификации проверяющих, наличия апробированных методик и затрат времени на выполнение каждого анализа. Не менее очевидно, что включение в процесс оценки экспертов повышает роль таких субъективных факторов, как уровень квалификации, внимательность, возможность конфликта интересов. Трудно исключать коррупционное влияние. Кроме того, в целом ряде ситуаций на экспертный анализ работ просто не хватает времени.

Всё это создаёт запрос на разработку идеального детектора плагиата, который в полностью автоматическом режиме может дать заключение, хорошая работа или плохая. При этом, с одной стороны, необходимо иметь возможность получать решение по работе при минимальном участии пользователей или вообще без этого участия, с другой – если возникают сомнения, должны быть средства, которые позволяют полностью «препарировать» результат автоматической проверки.

Иллюстрация создана Юлией Чехович при помощи сервиса Kandinsky (https://kandinsky-ai.ru/)

Лет 15 назад таким требованиям могло бы соответствовать разве что нечто фантастическое или волшебное. Однако быстрое развитие технологий машинного обучения и ИИ превращает несбыточные мечты в набор конкретных и посильных задач. Решение этих задач и встраивание полученных решений в конвейер проверки документов позволяет создать инструмент, в значительной степени отвечающий в глазах пользователя образу идеального детектора.

Компания Антиплагиат создала и развивает инфраструктуру решения актуальных задач средствами ИИ. Галерея некоторых уже решённых и перспективных задач представлена далее.

НАЙТИ ВСЁ

Значительную часть наших усилий мы посвящаем существенному расширению возможностей поиска совпадений. Прошли времена, когда авторы брали чужой документ, меняли титульный лист и выдавали за свой диплом или статью. Составление диссертации из текстов двух-трёх, ранее защищённых, также вышло из моды. Современная модель использования некорректных заимствований оперирует более продвинутыми инструментами.

Выявление переводных заимствований

Один из популярных способов позаимствовать чужой текст — использование перевода с другого языка. Этому способствуют распространённость средств машинного перевода, наличие огромных полнотекстовых баз данных с источниками на разных языках и очевидная ограниченность многих детекторов плагиата в выявлении кросс-языкового плагиата. При этом проблема плохо решается применением «лежащих на поверхности» методов, таких как обратный перевод с последующей проверкой обычным поисковым алгоритмом или же простой векторизацией слов или предложений с помощью технологий семейства word2vec [5]. Поэтому научные тексты на всех языках, кроме, возможно, английского, —очевидная зона риска. Думаю, что популярность подготовки квалификационных работ на многих национальных языках в определённой степени объясняется простотой и кажущейся безопасностью кросс-языковых заимствований.

Антиплагиат разработал и предоставил пользователям первое промышленное решение по обнаружению переводных заимствований с английского языка на русский в 2017 г. [6, 7]. Идея решения заключается в разделении поиска на два этапа: на первом осуществляется поиск источников-кандидатов с помощью хорошо изученного алгоритма шинглов¹, для которого строится индекс на кластерах переведённых слов, а на втором алгоритмами, основанными на векторных представлениях фрагментов текстов, производится детальное сопоставление проверяемого текста и текстов источников-кандидатов. Очередным шагом в развитии этого направления стало расширение к 2022 г. кросс-языкового поиска до 100 языков [8].

¹ Алгоритм шинглов (от англ. shingles — чешуйки) — способ, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе.

Выявление парафраза

Рука об руку с переводными заимствованиями идёт парафраз, который, по сути, также является переводом текста, но в рамках исходного языка. В определённом смысле парафраз обнаруживается путём упрощения и перенастройки кросс-языкового алгоритма. Упрощение достигается за счёт исключения из алгоритма блока машинного перевода. Отмечу, что методически работа с парафразом имеет больше трудностей. Перефразировка рассматривается многими как легальный и этичный метод работы с текстом. Ключевой мотив в этом случае — снижение доли текста, который системы ОЗ относят к совпадениям.

Учитывая распространённость практики оценки текста по доле совпадений без какого-либо экспертного анализа, авторы вынуждены прибегать к перефразировке даже в тех случаях, когда заимствования являются не просто допустимыми, но даже необходимыми. В России это наиболее ярко проявляется в отношении диссертаций на соискание степеней кандидатов и докторов наук. Многие советы контролируют в рассматриваемых работах соблюдение определённого уровня оригинальности, т.е. текста, не совпадающего ни с одним из найденных источников. В сочетании с совершенно разумным требованием публикации основных результатов диссертаций в рецензируемых научных журналах и отсутствием чёткой документальной позиции ВАК РФ по обсуждаемому вопросу это приводит к тому, что сотни и тысячи соискателей вынуждены заниматься парафразом только для того, чтобы их диссертации оказались допущены к защите.

Выявление маскировки совпадений

Ещё одним, в дополнение к парафразу, техническим способом «повышения оригинальности» работы оказывается так называемая маскировка совпадений. Она достигается за счёт использования многочисленных особенностей распространённых форматов файлов (docx, pdf), которые позволяют добиться того, что текст на экране или на распечатке кардинально отличается от текстового слоя, который извлекается из файла системой. То есть достигается эффект, когда видимый текст фактически остаётся низко оригинальным, но система «не видит» совпадений. Как правило, используются те или иные автоматические средства, способные за секунды обработать файл. Авторы, прибегающие к этому способу, чаще всего не понимают или не принимают во внимание два факта. Во-первых, применение средств маскировки заимствований оставляет в проверяемом файле всю информацию о том, что текстовый слой испортили и это действие не было случайным. Во-вторых, в ряде случаев (например, в некоторых научных журналах) присланный текст набирается повторно при вёрстке принятой к публикации статьи. После этого эффект маскировки, естественно, исчезает. Соответственно проверка статьи после публикации может привести к возникновению проблем не только у авторов работы, но и у журнала и издателя.

Выявление фактов использования маскировки совпадений осуществляется на нескольких уровнях. Во-первых, у пользователя есть возможность при загрузке документа на проверку включить извлечение текста с помощью оптического распознавания. В этом случае каждая страница документа в памяти сервера сначала превращается в изображение, а затем на полученном изображении распознаётся текст. Эффекты маскировки обязательно исчезают. Недостатком этого способа являются существенные вычислительные затраты и значительное увеличение времени проверки.

Другой метод выявления предполагает просмотр проверяющим пользователем текста отчёта, особенно текста, в котором совпадения не выявлены. Ограничения этого способа очевидны: далеко не все отчёты просматриваются, кроме того, требуется определённый навык и внимательность.

Решением оказался специальный алгоритм, который анализирует текст после извлечения и выявляет признаки, присущие файлам с замаскированными совпадениями. Когда они выявляются, документ помечается как подозрительный и пользователю показывается детальная информация о том, что было выявлено.

Выявление машинно сгенерированного текста

Самым нашумевшим инструментом, который используется для повышения оригинальности, стала машинная генерация, т.е. создание искусственных текстов в диалоге пользователя с сервисом ChatGPT [9] или его аналогами. Бурное развитие инструментов ИИ создаёт не только возможности решения задач детектирования, но и новые вызовы для разработчиков систем ОЗ. Очевидно, что практически для всех, кто проверяет учебные и научные документы, было бы важно иметь информацию о том, что документ полностью или частично написан при помощи программного сервиса. Для этого есть несколько причин. Основная заключается в том, что автор всегда обязан нести полную ответственность за то, что написано в документе, за корректность приводимых фактов, за отсутствие нарушений авторских прав и т.п. В случае использования сгенерированного текста все эти требования выполнить затруднительно. Кроме того, в отношении учебных работ требуется, чтобы текст был написан именно автором и никем иным, так как документ является подтверждением квалификации.

Если говорить о детектировании, то в общей постановке это очень непростая задача. Генеративные сети развиваются такими темпами, что, вероятно, уже в недалёком будущем невозможно будет создать детектор, который безошибочно отличал бы текст искусственный от человеческого. Однако в случае учебных и научных документов задачу детектирования удаётся решать с очень высокой точностью. Помогает то, что анализируемые документы являются довольно объёмными, а генеративным моделям сложно готовить качественные и большие тексты [10]. Участвуя в течение многих лет в конкурсах, команда Антиплагиата накопила опыт значительной экспертизы в области выявления искусственных текстов. Это позволило, как только проблема стала актуальной, быстро предложить пользователям работающий и эффективный инструмент. На данный момент доля ошибок классификации не превышает 1%.

НЕ ТЕКСТОМ ЕДИНЫМ

Традиционно системы ОЗ уделяют основное внимание текстам. При этом научные работы практически всегда содержат и другие типы контента: изображения, математические и химические формулы, которые попросту не проверяются алгоритмами работы с текстом, а также таблицы, исходный код программ, список источников, проверка которых без учёта их специфики приводит к очевидно некорректным результатам. Для создания полноценного детектора требуется особый подход для каждого типа контента.

Поиск заимствованных изображений

В значительной части исследований полученный результат заключён именно в публикуемом изображении, которое является не просто иллюстрацией, улучшающей понимание результата, но основным его доказательством. Подготовка текстового описания результата становится в данном случае несложной, рутинной задачей. Количество научных публикаций с заимствованными изображениями оценивается экспертами в единицы процентов от общего числа статей. В мировом масштабе это огромные величины. Но функция выявления совпадающих изображений отсутствует практически во всех сервисах ОЗ, а у обычных поисковиков, таких как Google или «Яндекс», функция поиска изображений не позволяет применять её для проверки научных документов.

Одна из основных проблем, которую необходимо решать для эффективного поиска совпадающих изображений, —это учёт возможных искажений. Изображение может быть опубликовано с поворотом, отзеркалено, обрезано по краю, иметь отличающуюся цветовую гамму, соотношение длин сторон и другое качество сжатия. Непростой задачей оказывается даже установление точных границ изображения на листе.

В 2022 г. в Антиплагиате создано промышленное решение для поиска заимствованных изображений, основанное на сочетании классических методов работы и современных моделей ИИ, применяемых в этой области. Его использование на открытых данных показало, что совпадающие изображения помимо ожидаемых случаев плагиата указывают на фальсификацию результатов исследований.

Работа с формулами и таблицами

Существует довольно много разделов знаний, в которых основные результаты представлены выкладками формул или в виде табличных данных. Для Антиплагиата работа с такими объектами пока является направлением перспективных исследований. Необходимо сначала построить модели, которые будут выделять в документе эти объекты, а далее реализовать схему индексирования, позволяющую проводить поиск с учётом типовых преобразований, применяемых авторами при заимствовании таких объектов.

РАБОТА СО СТРУКТУРОЙ

Важным направлением улучшения качества работы систем ОЗ оказывается учёт структурных особенностей работы, а также метаданных — информации, сопровождающей научное произведение. Ключевая проблема, которую необходимо решить на этом пути, — получение необходимых данных из файла проверяемого документа, так как другие источники могут оказаться недоступными.

Выделение структуры документов

Важная особенность учебных и научных документов —это наличие структуры. Из-за огромного количества типов документов, особенностей разных языков, традиций, присущих различным научным направлениям, не существует правил, которые бы её чётко определяли. Тем не менее в значительной доле проверяемых работ можно очертить границы структурных элементов. Это позволяет в перспективе по-разному учитывать совпадения в различных частях документа. Например, важно отличать совпадения текста в обзоре литературы и в описании результатов или обсуждении научной статьи.

Для решения этой задачи формируется признаковое описание каждой строчки документа, добавляется информация о вхождении в документ слов, которые помогают определить границы разделов. Дополнительно могут использоваться структурные ограничения, учитывающие типовой порядок следования разделов (маловероятно, например, что обсуждение результатов будет предшествовать их изложению). В качестве семейства алгоритмов оправданно выбирать относительно простые модели вида решающих правил или решающих деревьев, так как качества их работы может быть достаточно, а скорость работы и вычислительные затраты – важный фактор при оценке промышленных решений.

Антиплагиат уже автоматически выделяет титульные листы, оглавление, приложения, библиографию и основную часть документа. В ближайшее время появится выделение в основной части документа элементов структуры IMRAD (Introduction, Methods, Results and Discussion). Пользователи имеют возможность внести исправления в автоматически установленные границы разделов, что впоследствии используется как материал для дополнительного обучения алгоритмов. Таким образом пользователи помогают системе работать лучше.

Метаданные документа

Для анализа заимствований метаданные научного произведения не менее важны, чем его содержание. Имена авторов и их аффилиации используются для отнесения найденных источников к самоцитированию, т.е. к случаям повторного использования авторами текста ранее опубликованных произведений. Также в метаданных может содержаться полезная информация о дате публикации (если проверяется опубликованное произведение, а не рукопись). Для выделения метаданных используется комбинация алгоритмов, анализирующих текстовый слой документа, и тех, что используются для анализа месторасположения различных полей на станицах. Для каждого алгоритма рассчитываются необходимые признаки и решается задача многоклассовой классификации. Комбинирование разнородных алгоритмов позволяет достигать высокого качества в решении этой задачи.

НЕ ТОЛЬКО ДЛЯ ВУЗОВ И НИИ

Рукописные работы

Эпоха развития систем ОЗ шла параллельно с процессом цифровизации образования. Ещё в конце прошлого века произошёл массовый переход к цифровым форматам подготовки квалификационных работ. С одной стороны, это ввело студенческий и научный плагиат в состав самых серьёзных проблем современного высшего образования, с другой —позволило эффективно начать решение данной проблемы. В российских школах процесс цифровизации шёл гораздо медленнее. Очень небольшое число типов работ в общеобразовательных учреждениях готовятся сейчас в цифровой форме. По некоторым типам работ, таким как, например, выпускное сочинение, предусмотрен только рукописный формат подготовки. При этом ФГОС предусматривает также проверку сочинений на плагиат.

Это сочетание требует создания сервиса, который позволял бы искать совпадения в отсканированных или сфотографированных рукописных работах. Необходимо сразу отметить, что качество решения задачи распознавания почерконезависимого рукописного текста со статичного изображения даже с помощью ведущих инструментов не позволяет применять обычные поисковые технологии: слишком низким получается качество распознанного текста.

Попробовав сначала решить задачу вообще без использования технологий распознавания и потерпев неудачу на этом пути (качественное промышленное решение построить не удалось), мы разработали технологию поиска совпадений, которая в гораздо меньшей степени чувствительна к ошибкам распознавания. Для решения задачи потребовалось создать масштабный датасет рукописных текстов на русском языке. Датасет размещён в открытом доступе. В настоящее время эта технология в виде сервиса встраивается в систему Антиплагиат и скоро будет доступна для использования в российских школах.

Выявление ошибок в текстах

Ещё одной технологией, созданной в интересах общего образования, стал сервис по выявлению ошибок в эссе, которые школьники пишут по целому ряду предметов ЕГЭ: русскому и английскому языкам, истории, обществознанию. Разработка технологии велась в 2020–022 гг. в рамках технологического конкурса НТИ Up Great «ПРО//ЧТЕНИЕ» [11]. От конкурсантов требовалось разработать алгоритм, который в течение ограниченного времени (не более минуты) проверит эссе школьника не хуже обученного и сертифицированного преподавателя. Необходимо было обнаруживать орфографические, стилистические, логические и фактические ошибки.

Решение компании Антиплагиат оказалось победителем, а команда получила главный приз в номинации «Взаимное обучение на русском языке» Сейчас ведётся работа над общедоступным сервисом, который позволит проверять свои работы миллионам школьников.

Подводя итоги, отмечу, что инструменты ИИ на данном этапе являются неотъемлемой частью сервисов ОЗ, заинтересованных в качестве своей работы. Разнообразие и сложность решаемых задач растут. При этом важным оказывается не просто применять разработанные кем-то инструменты, но самостоятельно ставить задачи, обеспечивать себя необходимыми данными, обучать модели, контролировать как качество решения задач, так и требующиеся для этого вычислительные затраты. Только поддержка полного цикла решения задач ИИ может оказать необходимое волшебное влияние на достижение поставленных целей.

ЛИТЕРАТУРА

1. Беленькая О.С. Анализ локальных актов российских вузов, регламентирующих обнаружение заимствований в выпускных квалификационных работах / О.С. Беленькая, Ю.В Чехович // Педагогическая информатика. — 2018. — № 2. — С. 17–28. — EDN XSBXVR.

2. Об утверждении Порядка проведения государственной итоговой аттестации по образовательным программам высшего образования — программам бакалавриата, программам специалитета и программам магистратуры: приказ Министерства образования и науки РФ от 29 июня 2015 г. № 636.

3. Weber-Wulff D. Plagiarism detectors are a crutch, and a problem. — Nature. — 2019. — Mar. — Vol. 567, iss. 7749. — P. 435. — DOI 10.1038/d41586-019-00893-5.

4. Чехович Ю. О практике обнаружения заимствований в российских вузах / Ю. Чехович, А. Ивахненко, О. Беленькая // Университетская книга. — 2017. — № 4. — С. 74–75. — EDN YLPXJR.

5. Mikolov T. Distributed representations of words and phrases and their compositionality / T. Mikolov, I. Sutskever, K. Chen [et al.] // Conference on Advances in Neural Information Processing Systems. Distributed Representations of Words and Phrases and Their Compositionality. — 2013. — https://proceedings.neurips.cc/paper_files/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf.

6. Чехович Ю. Плагиат в научных статьях: трудности обнаружения перевода / Ю. Чехович, Р. Кузнецова, О. Бахтеев // Университетская книга. — 2017. — № 9. — С. 66–67. — EDN ZRWNVV.

7. Кузнецова Р.В. Методы обнаружения переводных заимствований в больших текстовых коллекциях / Р.В. Кузнецова, О.Ю. Бахтеев, Ю.В. Чехович // Информатика и её применение. — 2021. — Т. 15, № 1. — С. 30–41. — DOI: 10.14357/19922264210105. — EDN BQFZAZ.

8. Bakhteev O. Cross-Language Plagiarism Detection: A Case Study of European Languages Academic Works / O. Bakhteev, Y. Chekhovich, A. Grabovoy [et al.] // Academic Integrity: Broadening Practices, Technologies, and the Role of Students: Proceedings from the European Conference on Academic Integrity and Plagiarism (2021). — Brno: Springer, 2022. — P. 143–161. — DOI 10.1007/978-3-031-16976-2_9. — EDN NGALTU.

9. ChatGPT на русском: чатбот от OpenAl: сайт. — URL: https://chat-gpt.org/ru (дата обращения: 19.09.2023).

10. Gritsay G. Automatic Detection of Machine Generated Texts: Need More Tokens / G. Gritsay, A. Grabovoy, Y. Chekhovich // Ivannikov Memorial Workshop (IVMEM). — M., 2022. — P. 20–26. — DOI: 10.1109/IVMEM57067.2022.9983964.

11. О конкурсе «ПРО//ЧТЕНИЕ» // Up Great: сайт. — URL: https://ai.upgreat.one/about-project/ (дата обращения: 19.09.2023).

Рубрика: Инновационные технологии

Год: 2023

Месяц: Октябрь

Теги: Искусственный интеллект (ИИ) Юрий Чехович Антиплагиат Обнаружение заимствований