Плагиат в научных статьях: трудности обнаружения перевода

В течение нескольких последних лет в российской научно-образовательной системе произошли существенные изменения.

Был принят и вступил в силу ряд нормативных документов, обязывающих организации обеспечивать проверки квалификационных работ (диссертаций и дипломов) на наличие заимствований. Активно используются технические средства для их обнаружения, например система «Антиплагиат». Подобные действия вынуждают недобросовестных учёных и учащихся искать новые пути использования заимствованного текста [1].

Авторы: Юрий ЧЕХОВИЧ, исполнительный директор компании «Антиплагиат»; Рита КУЗНЕЦОВА, руководитель отдела исследований компании «Антиплагиат»; Олег БАХТЕЕВ, старший исследователь компании «Антиплагиат»

Всё чаще они задаются вопросом: «Как обмануть систему»? Самый действенный способ – переписать текст другими словами, перефразировать его. При всех неоспоримых достоинствах метод требует значительных усилий от изготовителя работы, поэтому нужно что-то более простое, но гарантированно приносящее результат.

И тут, поразмыслив немного, можно прийти к выводу, что очень просто и удобно использовать перевод текста. Успехи машинного перевода позволяют получить оригинальную работу, которая при беглом взгляде выглядит так, как будто её написали самостоятельно (если не вчитываться внимательно и не искать ошибки системы, которые, впрочем, легко исправить). Переведённая работа системой не найдётся. Во-первых, проверки осуществляются по русскоязычным коллекциям, во-вторых, в данном случае нужен иной алгоритм поиска заимствований.

Обнаружить такой вид плагиата до недавнего времени можно было только случайно, внимательно вчитавшись в текст работы. Автоматического инструмента детектирования заимствований такого рода не существовало.

Поиск переводных заимствований часто рассматривается в литературе. Постановка задачи сводится к сравнению предложений на разных языках и вынесению решения: являются ли они взаимным переводом. В последние годы проводится несколько международных соревнований, в которые иногда входят направления, связанные с детектированием переводных заимствований (SemEval, PAN).

До сегодняшнего времени был известен только один громкий случай с выявлением переводного плагиата – статья «Корчеватель: алгоритм типичной унификации точек доступа и избыточности» [2], являющаяся переводом автоматически сгенерированной статьи Rooter: A Methodology for the Typical Unification of Access Points and Redundancy [3]. Прецедент был создан искусственно с целью выявить проблемы в структуре ваковских журналов в частности и в состоянии российской науки в целом.

Заимствования происходят преимущественно из англоязычных статей. Безусловно, английский – общепринятый язык для большинства научных конференций и журналов и знают его лучше, чем другие.

Обнаружить переводные заимствования из англоязычных документов – задача нетривиальная. На первом этапе необходимо перевести проверяемый текст на английский язык, так как поиск будет осуществляться по английской коллекции. Однако возникает новая трудность – неоднозначность перевода. Один и тот же смысл может быть выражен разными словами, меняется структура предложения и порядок слов. А поскольку перевод осуществляется автоматически, то здесь возникают ещё и ошибки машинного перевода. Поэтому даже при наличии переведённого текста корректно найти в нём заимствования, осуществляя поиск по многомиллионной коллекции и обеспечивая при этом достаточную полноту, точность и скорость, при помощи традиционных алгоритмов невозможно.

Разработчики системы «Антиплагиат» создали модуль обнаружения переводных заимствований для языковой пары «английский – русский». Предлагаемый метод позволяет осуществлять поиск документов-кандидатов, откуда потенциально были произведены заимствования, и сравнивать текст. Технология применима и для других языковых пар.

Основным методом поиска кандидатов в случае дословного заимствования является построение инвертированного индекса, где документ из коллекции представляется в виде набора перекрывающих друг друга последовательностей слов определённой длины (n-грамм). В дальнейшем документы-кандидаты упорядочиваются в соответствии с выбранной функцией схожести совпавших последовательностей слов. Задачу поиска документов-кандидатов в случае переводных заимствований удалось решить с помощью аналогичного метода. Основным отличием от классического способа поиска кандидатов является построение функции, ставящей в соответствие каждому слову в рассматриваемой последовательности класс эквивалентности – метку кластера, который объединяет слова, встречающиеся в одинаковых контекстах и близкие по смыслу. Известно, что модели на основе глубоких сетей обеспечивают представление слов в векторном пространстве, которое может быть использовано для оценки семантической близости слов. Таким образом, кластеризация векторов является эффективным и быстрым способом получения классов слов.

Для следующего этапа – сравнения текстов между собой – используются рекуррентные сети глубокого обучения – искусственные нейронные сети особого вида, позволяющие представить фрагмент текста произвольной длины в векторном пространстве. Для оптимизации параметров сети применяются технологии обучения без учителя¹ и технологии частичного обучения (требуется только небольшой объём частично размеченных данных).

1. Обучение без учителя (unsupervised learning) – один из разделов машинного обучения, в котором известны только описания множества объектов и требуется обнаружить внутренние зависимости, существующие между ними.

Таким образом, проблема обработки естественного языка решается с меньшими усилиями по поиску подходящих ресурсов, что актуально для многих языков, по которым имеется не так много материалов.

Другой важной особенностью рекуррентных сетей является возможность их применения как порождающих, т.е. моделирующих вероятностные характеристики естественного языка, моделей. Данная технология позволяет генерировать текст, основываясь на изученных структурах языка, что даёт возможность применять их как для определения семантической близости слов и выражений, так и в случаях перефразирования.

Для каждого типа нейронных сетей оптимальная архитектура подбирается исходя из значений конкретных целевых метрик оценки качества, таких как полнота, точность и F-мера².

2. F-мера (F-measure) – характеристика, которая позволяет дать оценку одновременно по точности и по полноте.

Промышленное тестирование инструмента было проведено на текстах научных статей из входящих в Российский индекс научного цитирования (РИНЦ) изданий, предоставленных научной электронной библиотекой eLibrary.ru [4]. Всего было проверено около 2,5 млн научных статей на русском языке. Мониторинг осуществлялся по коллекциям английских научных статей и англоязычного Интернета.

В результате всего было обнаружено более 20 тыс. статей, содержащих переводные заимствования в значительных объёмах. Примерно для трети из обнаруженных примеров был проведён экспертный анализ. Результаты анализа этой подвыборки представлены в таблице.

Часть результатов относится к легальным заимствованиям. Это переводные работы тех же авторов или выполненные в соавторстве, корректные срабатывания одинаковых фраз, как правило из одних и тех же нормативных актов, переведённых на русский язык. Но значительная часть результатов – это некорректные переводные заимствования.

По предварительным оценкам, не менее 1% русскоязычных статей в eLibrary.ru содержат переводные заимствования в различном объёме. Причём оценка эта сильно занижена, так как ограничена размером англоязычной коллекции, по которой осуществлялась проверка. То есть, индексируя большее количество англоязычных документов, можно получить увеличение количества статей, включающих такие заимствования.

Литература

1. Никитов А.В., Орчаков О.А., Чехович Ю.В. Плагиат в работах студентов и аспирантов: проблема и методы противодействия. – Университетское управление: практика и анализ. – 2012. – № 5. – 61–68. [Nikitov A.V., Orchakov O.A., Chehovich Ju.V. Plagiarism in works of undergraduate and graduate students: Problem and methods of counteraction. – University Management: Practice and Analysis. – 2012. – V. 5 – P. 61–68].

2. https://ru.wikipedia.org/wiki/SCIgen .

3. https://ru.wikipedia.org/wiki/Корчеватель_(статья) .

4. https://elibrary.ru .

Рубрика: Инновационные технологии

Год: 2017

Месяц: Ноябрь

Теги: Юрий Чехович Олег Бахтеев Рита Кузнецова