Книжный рынок и издательства   Библиотеки   Образование
и наука
  Конкурс
“Университетская книга”

Март 2024
"Искусственный интеллект и научное знание"

  • Наталья ИВАНОВА: "Мы стремимся работать на опережение запросов пользователей"
  • Креативная экономика: перспективные направления
  • Самиздат в России: смелые эксперименты и креативные коллаборации
  • Вузы и устойчивое развитие



МультиВход

Интервью

Книжный рынок

Вузовские издательства

Искусство издавать

Библиотеки

Образование

Инновационные технологии

Электронные библиотеки

Культура книги

Библиогеография

Библиотехнологии

Выставки и конференции

Конкурсы и премии

Документы

Copyright.ru

КНИГА+

Год литературы

Журнал Онлайн




 

samiy-chitayuschiy-region


Рассылка


 

rgdb-podari-rebenku

Подмена отображаемых символов в файлах формата PDF: выявить и обезвредить
17.08.2020 12:39

Формат PDF довольно специфичен тем, что состоит из визуальной части и текстовой подложки. Для извлечения текста из таких файлов требуется использование особых алгоритмов, поскольку при конвертации документов из других форматов в PDF часто теряются пробелы или меняется порядок следования слов и символов. Это увеличивает частоту возникновения различного рода ошибок в документах.

Формат PDF позволяет определять отдельные значения для каждого из отображаемых символов с помощью специальных таблиц преобразования: таблицы CMAP (character map). Это дает возможность подменять значения отображаемых символов произвольным значением, а при извлечении текста его значение будет отличаться от того, что визуализируется.

Сам процесс подмены довольно сложный и имеет много вариантов, поэтому упрощенно рассмотрим не автоматическое редактирование таблицы преобразования символов с использованием шестнадцатеричного редактора.

Предположим, имеется следующий исходный документ:

podmena-1

Если в редакторе открыть файл формата PDF, то мы увидим следующее:

podmena-2

Обратим внимание на блок beginbfchar. Он содержит в себе структуру, каждый элемент которой представлен идентификатором символа и его значением.

На примере видно, что идентификатор 0001 соответствует значению 0020, а 0002 представлено как 0041. В данном случае кодировка символов в UTF-16, поэтому составляется соответствующая таблица:

Идентификатор

Значение

UTF-16

0001

0020

 

0002

0041

A

0010

0043

C

0042

004D

M

0056

0050

P

0182

0435

е

0193

0441

с

0194

0442

т

В колонке UTF-16 таблицы отображены значения символов фактически отображающихся в документе.

А теперь заменим исходные символы на нужные нам. Результат замены отображен в таблице:

Идентификатор

До замены

Значение

UTF-16

0001

0020

0020

 

0002

0041

0445

х

0010

0043

041E

О

0042

004D

043E

б

0056

0050

0050

о

0182

0435

0435

е

0193

0441

0441

с

0194

0442

0434

д

Таким образом, блок beginbfchar выглядит так:

podmena-3

После описанных действий визуально в PDF-документе ничего не изменится, т.е. будет отображаться «CMAP тест», но если попытаться скопировать текст, то мы увидим «Обходесд». Таким образом, видимый текст не будет соответствовать извлеченному.

Подобный метод подмены интересен тем, что не определяется визуально, а выявить его можно лишь специальными алгоритмами. Обычно он используется для частичной замены слов и символов в случайных абзацах документа. Выявить использование данного метода довольно сложно, а вот с повышением оригинальности документа данный метод справляется «на отлично». Проверяющему придется приложить значительные усилия для извлечения и анализа текста на соответствие оригиналу, что даже при небольшом объеме работы довольно трудоемко.

Указанный метод обхода на момент выхода данного материала уже успешно определяется системой Руконтекст (https://text.rucont.ru/ ).

Пресс-служба "Руконт"

 



telegram-1-1
 
Какие форматы доступа на электронную периодику для вас наиболее интересны?
 

 


webbanner-08-video

 

 webbanner-07-nacproekt

 

 webbanner-01-neb

 

 webbanner-02-fz-o-kulture

 

webbanner-red-03-ebs

 

webbanner-red-04-kn-rynok

 

 webbanner-red-05period-pechat

 

 webbanner-red-06-ros-poligrafiya

 

webbanner-red-kult

 
Copyright © ООО Издательский дом "Университетская книга" 2011
Все права защищены.
Студия Web-diamond.ru
разработка сайтов и интернет-магазинов.