Российское электронное пространство знаний

Модель библиотечного обслуживания, связанная с выдачей книг по запросу, безнадёжно устарела. Пользователи, привыкшие к быстрому поиску в Интернете, не готовы работать со сложной библиотечной классификацией, рискуя по запросу получить совсем не то, что необходимо им для исследовательской работы. Перспективы решения проблемы профессионалы связывают с организацией единого национального пространства знаний.

Обсуждение темы прошло на площадке Российской государственной библиотеки (РГБ) в рамках ежегодного совещания руководителей федеральных и центральных региональных библиотек России.

Генеральный директор РГБ Вадим ДУДА поделился видением концепции цифровой трансформации библиотечной отрасли, основная задача которой состоит в том, чтобы контент и справочно-библиографический аппарат стали частью цифровой экономики.

— У всех наших сайтов никогда не будет такого трафика, как у «Яндекса», Google или Facebook. Нам важно не просто создавать новые ресурсы и думать, что Национальная электронная библиотека победит, потому что там достоверная информация. Отсутствие онлайн означает полное отсутствие на рынке. Если библиотечных продуктов и сервисов не окажется в цифровой экосистеме, то нас, скорее всего, не будет.

Постиндустриальное информационное общество тяготеет к монополии или олигополии. Когда мы говорим о цифровых моделях, в том числе библиотечных, неизбежно появляются крупные структуры. В нашем случае это могут быть монопольные платформы и совместное создание продуктов на их основе. А на уровне выше всё это должно быть встроено в мегаплощадки, имеющие миллиардную аудиторию.

Стратегия развития информационного общества в Российской Федерации определяет направления развития технологий. В их числе средства идентификации и аутентификации. Мы в РГБ пользуемся сервисами «Госуслуг». В перспективе, возможно, станет доступна биометрия, а для этого необходима обработка больших объёмов данных. Это невозможно делать локально, должен появиться центр таких услуг. Рынок и технологии будут подталкивать нас к объединению усилий, созданию консорциумов, облачных центров.

Обязательный экземпляр в электронном виде — это полный текст. В сочетании с ним искусственный интеллект (ИИ) позволит кардинально изменить механизмы каталогизации, систематизации и навигации. В фонде РГБ 47 млн книг, но мы, в сущности, знаем их только по полям библиографического описания, не понимая до конца, какие знания они содержат.

Сегодня цена обработки и хранения информации снижается, а скорость трафика растёт, и даже мобильный Интернет становится достаточно быстрым. Радикально повышается ценность информации. Но, выходя на кадровый рынок и пытаясь найти специалистов в ИТ, мы обнаруживаем, что неконкурентоспособны — ни в смысле оплаты труда, ни в отношении перспектив. Это ещё один фактор в пользу объединения усилий.

Мы должны создавать цифровые продукты и добиваться цифровизации аналоговых, налаживать цифровые способы коммуникации с пользователями. Необходимо думать о digital-активах и цифровой организации труда. Самое важное — digital-культура. Дело не в оцифровке фондов, не в переводе бумаги в pdf, а в том, чтобы мыслить по-новому.

Цифровые продукты — это электронные библиотеки и каталоги. Уверен, что для РГБ основной моделью ещё много лет будет предоставление книг пользователям. Это тоже подлежит цифровой трансформации: в части интерфейсов, электронных вариантов представления текстов, сервисов и услуг.

Библиотечная деятельность предполагает сбор информации, её сохранение и обеспечение доступа к ней. Всё это нужно осуществлять и в цифровой среде. Однако агрегировать придётся не только печатные книги, но и электронные, а также цифровые артефакты, наборы данных, первичные результаты исследований, большие данные. А модель доступа к этому контенту должна предусматривать возможность создания нового знания, в том числе с использованием ИИ. В сущности, наша основная задача сводится к простой идее: библиотеки должны быть встроены в цифровую экосистему.

Ирина ГАЛЕЕВА, заведующая отделом перспективных электронных проектов Российской национальной библиотеки (РНБ), высказала идею создания национальной облачной автоматизированной библиотечной системы (АБИС). Реализация проекта обеспечит перестройку устоявшихся библиотечных процессов: управления фондом, книговыдачи. Важным аспектом является цифровой абонемент — технология, которая обеспечит контролируемое использование электронных изданий. В этой же плоскости — введение единого читательского билета. К ресурсу смогут присоединиться все библиотеки, имеющие только компьютер и подключение к Интернету. Международный опыт показывает, что данное направление весьма актуально. Например, в Турции и Израиле уже есть национальные АБИС. Доступ библиотек к проекту в базовой части должен быть абсолютно безвозмездным, а дополнительные сервисы, аналитика могут быть доступны за плату, считает эксперт.

Площадкой для реализации проекта может стать Национальный библиографический ресурс, который аккумулирует метаданные и становится полигоном для отладки и тестирования концепции. Второй важный ресурс — эталонная модель библиотечных данных ИФЛА, которая на высоком уровне обобщения описывает их структуру и взаимосвязи. Это важно, потому что в АБИС станут работать библиотеки всех уровней: от муниципальной до национальной. РНБ планирует создать совет по единой модели данных, которая способна оказаться общероссийской.

Заместитель директора по цифровизации РГБ Павел ЛУШНИКОВ поделился опытом работы с ИИ и рассказал о достижениях отдела инженеров знаний.

— Библиотекам сложно привлечь не только ИТ-кадры, но и технические ресурсы. В библиотечной отрасли занято порядка 160 тыс. человек, в ИТ-отрасли количество персонала сопоставимо. Но капитализация ИТ примерно в 20 раз выше, чем книжного рынка и библиотечных услуг, вместе взятых.

В традиционных ИТ-решениях основные затраты приходятся на разработку бизнес-логики и на её автоматизацию. При использовании моделей, основанных на машинном обучении и ИИ, вряд ли кто-то готов создавать нейросеть самостоятельно. Это делают крупные компании, а мы пользуемся их разработками. Таким образом, затраты на бизнес-логику сокращаются, а растут — на подготовку данных. Это как раз то, чем библиотекари умеют заниматься: искать, собирать и сохранять. Но в современном мире мы не вполне эффективно доставляем продукт потребителю. Очевидно, что нашими данными могут пользоваться не только читатели, но и машины, которые из них сделают информационные продукты и доставят потребителям. Даже имеющийся ГК РФ позволяет в помещениях библиотек производить разные операции с оцифрованными фондами. Библиотека является хабом доступа к контенту, который невозможно приобрести на рынке уже сейчас.

Данные становятся новой нефтью, и мы вполне способны формировать так называемые дата-продукты, а использование языка ИИ позволяет интерпретировать более широкий спектр смыслов и значений. Мы много копий сломали на том, какие поля должны быть в библиографическом описании. По сути, в карточке книги всего одно поле, и человек его правильно раскладывает, интерпретирует и после этого находит нужное издание. То же самое можно научить делать машину.

На сегодняшний день наш отдел инженеров знаний умеет проводить семантический анализ газетной полосы, делить её на статьи, проводить автоматическую систематизацию по готовой классификационной системе, осуществлять визуальный поиск по похожим изображениям. Был проведён любопытный эксперимент: отобрали 500 тыс. диссертаций и столько же авторефератов. Стояла задача свести автореферат с полным текстом. Совпадение получилось на уровне 95%. Сложной тематикой оказались юридические науки: расхождение там было максимальным, машина хуже справлялась с правовыми нюансами.

В продолжение темы начальник отдела библиотечных информационных систем РГБ Дмитрий КОВАЛЕВСКИЙ поделился опытом автоматизации обработки данных на основе программы Robin.

— Важнейшая задача — отражение всего фонда РГБ в электронном каталоге. Сложность её решения обусловлена прежде всего масштабами. Мы постоянно находимся в поиске путей, позволяющих автоматизировать процесс каталогизации.

Предположим, необходимо каталогизировать газетные издания. Есть 100 годовых комплектов, в день выходит по одному номеру, это около 400 выпусков в год и 40 тыс. записей для 100 комплектов. Если каталогизатор делает запись за одну минуту, то он будет работать над этой задачей четыре месяца. Robin стабильно делает запись за 10 секунд, 3 тыс. записей в день, заменяя 25 операторов. При этом используется технология, которая эмулирует работу специалиста, но ввод данных осуществляется в обход клавиатуры, и за счёт этого обеспечивается скорость. Для того чтобы настроить робота, не нужно знать языки программирования, достаточно владеть навыками составления алгоритмов. Сначала следует изучить, на какие кнопки нажимает оператор, чтобы выполнить определённую процедуру: как правило, это заложено в рабочие инструкции. Затем определяется структура входных данных. Последовательность нажатия кнопок выстраивает каркас робота. Наконец создаётся цикл и определяются точки контроля.

С использованием роботов в библиотеке формируются новые библиографические записи, обеспечиваются наклейка штрихкодов на книги, перешифровка фонда, внесение сведений о списании экземпляров, которые были исключены из фонда, и исправление типовых ошибок в метаданных.

Робот быстрее человека, не делает ошибок, с удовольствием работает ночью. У него только один недостаток: он постоянно хочет есть. А питается робот данными. Но подготовить их гораздо быстрее и эффективнее, чем вручную вводить в информационную систему. Годовая подписка на решение стоит 150 тыс. рублей, — отметил эксперт.

Директор по цифровизации РГБ Михаил ШУБИН для решения проблем хранения библиотечного контента предложил использовать облачную инфраструктуру, что позволит существенно сократить затраты.

— Мы сталкиваемся с тем, что нужно обрабатывать большое количество файлов. Пример — книжные памятники. При анализе изданий используется подход, как на картах «Яндекс» или Google, когда изображение можно быстро увеличить. Для этого картинка делится на множество фрагментов. В этом году книжных памятников стало 24 тыс., и число таких файлов приблизилось к 1 млрд. Такой объём очень большой для классической модели хранения. Облачная технология позволит легко с этим справиться.

На сегодняшний день РГБ развернула объектное хранение на платформе СЕРН, сотрудничает с ГИВЦ Минкультуры России и Mail.ru Group, получая от них ценные консультации. В планах на 2022 год —продолжить пилотный проект и запустить центр компетенций для специалистов библиотек. Советуемся с юридической службой, для того чтобы ответить на вопрос, могут ли распределённо хранимые данные быть доступными другим библиотекам — узлам облачной сети.

Дискуссию завершил директор Центральной научной медицинской библиотеки Борис ЛОГИНОВ.

— Многие руководители не совсем отчётливо понимают, что кроется за термином «цифровизация». На мой взгляд, это означает, что мы полностью переходим в цифровую среду и начинаем работать с большими данными, связанными данными, ИИ. Если в библиотеке эти технологии не применяются, то она не цифровизована. В РГБ и РНБ используются современные методы анализа текстов, автоматической классификации. Это уже элементы цифровизации.

По мнению эксперта, в рамках цифровизации в библиотеках должен быть решён ряд задач.

— Первая — это оцифровка всего фонда. При этом не обязательно все объекты держать в библиотеке, хранение может быть и удалённым, но к этому контенту должен быть организован доступ.

Вторая задача — непосредственно обеспечение доступа к цифровым копиям без нарушения законодательства.

В своё время ИФЛА рекомендовала использовать модель DCL (Digital Control Law). Мы по этой технологии работаем уже с 2014 г., обеспечивая областным библиотекам доступ к контенту медицинской библиотеки. Он очень дорогой, и иметь его в таком объёме в конкретной библиотеке бессмысленно. Российское законодательство позволяет это делать, но при определённых условиях. Правда, не всякая библиотека готова реализовать подобную модель из-за технологических сложностей.

Третья задача — перевод электронных каталогов на принцип связанных данных. Только через эту трансформацию мы придём к технологиям Big Data, другого пути для совершенствования библиотечных сервисов нет. Университетские библиотеки работают с такими системами, как Scopus, Web of Science, РИНЦ, Ebsco. Все наукометрические базы созданы как связанные данные, библиография децентрализована. Мы эту задачу успешно решаем в рамках OPAC. Смысл данной работы — повышение качества библиографических ресурсов. Линейная запись ограниченна с точки зрения сервисов. Если мы хотим улучшить качество библиографического обслуживания, обязательно нужно иметь рефераты на двух языках, список авторов с транслитерацией, все связи с изданиями, должны работать DOI, ORCID и т.д., что позволяет переходить в другие системы. В нашей отрасли крупнейшая база PubMed тоже работает на связанных данных.

Отдельное направление — предметизация. Как минимум необходим авторитетный файл на авторов. Огромное значение приобретают онтологии — структуры знаний в той или иной области. Ключевые слова для решения этой задачи не оптимальный вариант, это сырьё. Должны существовать классификаторы типа ББК, только более частного характера. При этом онтологии должны быть доступны пользователям для тематического поиска. При планировании развития науки в каталоге необходимо учитывать аффилированные с автором организации. По сути, публичные онтологии — это изучение и структуризация спроса.

Поскольку объём данных критически растёт, необходима автоматическая классификация. Для этого вокруг ББК нужно выстроить семантическое и лексическое облако, в котором можно обращаться к индексам на естественном языке. Сегодня наши справочно-поисковые аппараты изжили себя, они слабы, и их нужно знать на профессиональном уровне. Возможность использовать естественный язык появится, когда мы создадим облака знаний. Документ лишь одна из форм представления знания, а само знание — результат творческой деятельности. Система знаний, по сути, энциклопедия. Вы к ней обращаетесь, и она даёт ответ на конкретный вопрос. А запрос на выдачу книг по той или иной теме в этом плане неэффективен: нужно прочитать книгу от корки до корки, чтобы извлечь знание.

Цифровая трансформация должна привести нас к появлению новых продуктов и услуг. Это прежде всего предоставление пользователям онтологий, энциклопедий, энциклопедической формы справочно-поискового аппарата, — подчеркнул в заключение Б. Логинов.

Рубрика: Инновационные технологии

Год: 2022

Месяц: Январь/Февраль

Теги: Вадим Дуда Борис Логинов Михаил Шубин Павел Лушников