Книжный рынок и издательства   Библиотеки   Образование
и наука
  Конкурс
“Университетская книга”

Сентябрь 2019
"Революция Гутенберга 2.0 и будущее библиотек"

  • Сергей МАКАРЕНКОВ: «Издателю важно быть читателем...»
  • Библиотека университета 4.0
  • Российский книжный рынок: торжество non-fiction
  • Крымская пятилетка: обретения, потери, надежды



МультиВход

t8

 

Интервью

Книжный рынок

Вузовские издательства

Искусство издавать

Библиотеки

Образование

Инновационные технологии

Электронные библиотеки

Культура книги

Библиогеография

Библиотехнологии

Выставки и конференции

Конкурсы и премии

Документы

Copyright.ru

КНИГА+

Год литературы

Журнал Онлайн

 

obnar-zaimstv-2019

 

ufimskiy-salon-2019

 

lit-flagman1




 

rgdb-podari-rebenku


Рассылка


Распознавание изображений на службе у «Антиплагиата»
18.02.2018 20:08

Система «Антиплагиат» уже много лет является надёжным помощником преподавателей из России, Казахстана, Белоруссии, Кыргызстана и других государств. Около 1 тыс. учебных и научных организаций используют сервис в своей работе. «Антиплагиат» ежедневно проверяет сотни тысяч документов.

raspoznav-izobrazheniy-avtory-1Авторы Юрий ЧЕХОВИЧ, исполнительный директор компании «Антиплагиат»; Андрей ИВАХНЕНКО, руководитель отдела внедрения и эксплуатации компании «Антиплагиат»

Наши исследования показали, что довольно много пользователей используют «порочные» практики применения систем обнаружения заимствований [1], которые ориентированы только на определение процента оригинальности. Зная такой порядок оценки результатов, обучающиеся затрачивают минимальные усилия, зачастую отдавая подготовку диплома или курсовой авторам работ на заказ. Таким образом появился целый рынок обхода систем обнаружения заимствований. Задача стоит простая: необходимо так модифицировать документ с проверяемой работой, чтобы процент оригинальности был выше порога, установленного в конкретном вузе.

С точки зрения повышения оригинальности текста самым надёжным способом является «глубокий рерайт», т.е. переписывание текста своими словами. Это относительно честный и трудноопределимый способ повышения оригинальности текста. Однако он требует больших затрат, а значит стоит дорого.

Мошенники используют менее трудозатратный способ повышения оригинальности. Решение тут довольно простое и прямолинейное: необходимо, чтобы текст, извлекаемый системой обнаружения заимствований, был оригинальным, а для этого он должен отличаться от того, что видит проверяющий, который читает распечатанный документ. Конечно, такие простые возможности, как замена символов на сходные по написанию из других алфавитов, давно раскрыты, но существует огромное множество других и появляются они регулярно, по мере того как мы справляемся с существующими (подобно головам, отрастающим у Лернейской гидры).

Не прекращая борьбу с новыми лазейками, но понимая, что по этому пути можно идти слишком долго, мы сменили подход к решению проблемы в корне. «Антиплагиат» должен проверять на заимствования именно тот текст, который видит человек. Для этого идеально подходят средства OCR (Optical Character Recognition – оптическое распознавание символов), которые позволяют получать текст из изображений текста (сканов, фотографий, скриншотов).

Ещё в 2014 г. мы встроили этот механизм в наш поисковый робот-краулер и начали индексировать сканы книг и документов, находящихся в свободном доступе в сети Интернет. С тех пор мы подбирали оптимальные настройки и готовили инфраструктуру введения нового способа извлечения текстов. И вот летом 2017 г. началось постепенное включение нового способа извлечения текстов с помощью OCR в системы «Антиплагиат.ВУЗ» и «Антиплагиат.Эксперт».

Теперь порядок обработки следующий. Документы всех поддерживаемых форматов, как и раньше, загружаются в систему. Загруженный файл распечатывается на виртуальном принтере с необходимым для распознавания качеством. «Электронная» распечатка оригинала документа гораздо лучше, чем скан высокого качества: при этом обеспечивается минимум искажений и шумов. А чем выше качество изображения, тем лучше работает алгоритм распознавания. После того как получился набор «электронных» распечаток страниц, они подаются в систему OCR, где осуществляется распознавание текста. Затем отдельные страницы сводятся в единый документ. Дальше действует отработанный алгоритм поиска заимствований текста и подготовки отчёта.

Кардинальная трансформация одного из центральных и важных компонентов системы не может обойтись без изменения характеристик системы обнаружения заимствований. Так произошло и с внедрением нового способа извлечения текста через OCR.

Первое, что заметит опытный пользователь системы «Антиплагиат», это, к сожалению, увеличившееся время загрузки документа. Дело в том, что извлечение текста с помощью OCR – процесс на несколько порядков более ресурсоёмкий, чем тот, который использовался ранее. Извлечение текста с одной страницы занимает около 10 секунд на одном ядре процессора. Несложно подсчитать, что документ размером 160 страниц (размер типичной кандидатской диссертации) на сервере с 16 ядрами будет обрабатываться около 100 секунд. Мы провели замеры и выяснили, что среднее время обработки документа увеличилось с 10 секунд до полутора минут.

Ещё одним побочным эффектом можно считать появление случайных символов, возникающих при распознавании иллюстраций. Рассмотрим пример с фрагментом статьи о русском алфавите из «Википедии» [2]. Из первого абзаца этой статьи и таблицы с алфавитом был подготовлен документ, исходный вид которого представлен на рис. 1 в формате отчёта о заимствовании системы «Антиплагиат.ВУЗ».

raspoznav-izobrazheniy-1

На рис. 2 приведён текст, извлечённый из этого документа. Видно, что мелкий подстрочный текст, обозначающий название буквы, распознался как знаки препинания, а некоторые буквы алфавита попали в блоки заимствований. Таким образом, возможно появление незначительного числа случайных символов из рисунков в проверяемых документах. Они незначительно увеличат объём текста, а значит несущественно увеличится и процент оригинальности.

raspoznav-izobrazheniy-2

С другой стороны, у системы «Антиплагиат» появилась новая возможность, которая позволяет мириться и с возросшим временем обработки документа, и со случайными символами, возникающими вследствие распознавания рисунков. Теперь системы семейства «Антиплагиат» могут искать заимствования в скриншотах, вставленных сканах страниц, иллюстрациях, т.е. объектах, которые были ранее недоступны для поиска заимствований. Естественно, чуда ждать не следует, и если вы вставите в документ скан плохого качества или смазанную фотографию текста, полученную при плохом освещении, то получите набор случайных символов. Но вот способ «обхода» системы путём вставки скриншота вместо самого текста, так чтобы при распечатке ничего не было заметно, уже не пройдёт.

Что же получается в результате? После внедрения извлечения текста с помощью OCR время обработки больших документов заметно увеличилось, но осталось в приемлемых рамках нескольких минут. Возможно наличие небольших «артефактов» в тексте от распознавания картинок (незначительно, на доли процента может увеличиться процент оригинальности). Но зато коренным образом решена проблема обхода системы целыми семействами алгоритмов, а также появилась возможность искать заимствования в сканах, диаграммах, рисунках, скриншотах и т.п.

Мы не собираемся останавливаться на достигнутом. В планах:

увеличение скорости обработки документов, для того чтобы вернуться к привычному для наших пользователей, почти мгновенному поиску заимствований;

совершенствование техник постобработки текстов для отсева случайных символов;

совершенствование предобработки документов, для того чтобы чудо всё же произошло и появилась возможность искать заимствования в любом документе, который может прочитать человек.


Литература:

1. Чехович Ю.В., Ивахненко А.А., Беленькая О.С. О практике обнаружения заимствований в российских вузах // Университетская КНИГА. – 2017. – № 4 [Электронный ресурс]. – Режим доступа: http://www.unkniga.ru/innovation/tehnology/7119-o-poryadke-obnaruzheniya-zaimstvovaniy-v-rossijskih-vuzah.html  – Дата обращения: 17.11.2017.

2. Русский алфавит [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Русский_алфавит . – Дата обращения: 17.11.2017.

Опубликовано в номере декабрь 2017

 

Комментарии 

 
#4 Андрей Ивахненко 20.02.2018 17:26
Цитирую Арсен Боровинский:
Андрей, если это не тайна, чем вы рендерите форматы от Microsoft Office (doc, docx, pptx)?


Мы попробовали большое количество разных рендеров платных и бесплатных. К сожалению, нет какого-то одного решения - серебряной пули. Процедура рендера майкрософтовски х документов достойна отдельной статьи...
Цитировать
 
 
#3 Арсен Боровинский 20.02.2018 12:59
Для того, чтобы текст распознать, его необходимо предварительно отрендерить соответствующей программой.

У вас поддерживаются форматы: doc, docx, pptx, html, pdf, rtf, txt, odt.

C html, pdf, rtf, txt, odt вопросов не возникает.

Андрей, если это не тайна, чем вы рендерите форматы от Microsoft Office (doc, docx, pptx)?
Цитировать
 
 
#2 Андрей Ивахненко 19.02.2018 16:37
Цитирую Арсен Боровинский:
В качестве OCR используется Tesseract?

Арсен, вы правы, мы используем Tesseract.

Цитирую Арсен Боровинский:
Для систем распознавания необходимо указывать язык документа для корректного распознавания. Какие языки вы задаёте системе распознавания?


Мы передаем системе указание на распознавание нескольких языков, которые определяются в документе.
Цитировать
 
 
#1 Арсен Боровинский 19.02.2018 10:36
В качестве OCR используется Tesseract?

Для систем распознавания необходимо указывать язык документа для корректного распознавания. Какие языки вы задаёте системе распознавания?
Цитировать
 



Какие форматы доступа на электронную периодику для вас наиболее интересны?
 

 


webbanner-08-video

 

 webbanner-07-nacproekt

 

 webbanner-01-neb

 

 webbanner-02-fz-o-kulture

 

webbanner-red-03-ebs

 

webbanner-red-04-kn-rynok

 

 webbanner-red-05period-pechat

 

 webbanner-red-06-ros-poligrafiya

 

webbanner-red-10-sost-kultury

 
Copyright © ООО Издательский дом "Университетская книга" 2011
Все права защищены.
Студия Web-diamond.ru
разработка сайтов и интернет-магазинов.