Книжный рынок и издательства   Библиотеки   Образование
и наука
  Конкурс
“Университетская книга”

Апрель 2018
"Информационные проекты и сервисы для исследователей"

  • Эдуард ГАЛАЖИНСКИЙ: "Будущее создается в экспериментах"
  • Учебное и академическое книгоиздание: не бизнес, а миссия
  • СЦОС: приоритетный проект на старте
  • Библиогеография: Псковская область



МультиВход

Интервью

Книжный рынок

Вузовские издательства

Искусство издавать

Библиотеки

Образование

Инновационные технологии

Электронные библиотеки

Культура книги

Библиогеография

Библиотехнологии

Выставки и конференции

Конкурсы и премии

Документы

Copyright.ru

КНИГА+

Год литературы

Журнал Онлайн

 

mmso-2018




 

rgdb-podari-rebenku


Рассылка


Тематический поиск электронных ресурсов на основе классификационной модели организации знаний
11.12.2017 00:30

В библиотеках совершенствуются компьютерные технологии, создаются масштабные электронные каталоги и серьёзные цифровые коллекции, поэтому проблеме качества тематического поиска придаётся всё большее значение. Задачу организации знаний библиотеки решают путём использования семантических моделей, называемых библиотечно-библиографическими классификациями, информационно-поисковыми тезаурусами и рубрикаторами. Преобразование применяемых в библиотеках универсальных классификаций в сетевые системы организации знаний (Network Knowlege Organization Systems, KOS) [1] представляет собой серьёзное направление работы.

lavryonova

Автор Ольга Александровна ЛАВРЁНОВА, начальник отдела методического и лингвистического обеспечения информационных систем ФГБУ РГБ

ЭЛЕКТРОННЫЕ РЕСУРСЫ И СОВРЕМЕННЫЙ ПОЛЬЗОВАТЕЛЬ

Современный читатель избалован возможностями глобальной сети Интернет, где поисковые машины по некоторому сочетанию слов запроса выдают тысячи ответов, знай себе выбирай. Эти умопомрачительные результаты подавляют желание пользователя задуматься над тем, что, несмотря на наличие действительно полезных ссылок, их выдача носит случайный характер, так как работа поисковых машин основана на теории вероятности и математической статистике. Результаты при этом зависят от многочисленных факторов, в том числе от качества гипотез разработчиков, объёма и правильности выбора обучающих массивов текстов. Нелепо было бы оспаривать пользу подобных технологий, но одновременно наивно полагаться на полноценность результата. Получив некую подборку ссылок, пользователь меньше всего думает о том, что в ней могут отсутствовать именно те материалы, которые наиболее соответствуют его информационной потребности. Такого рода ситуация имеет значение при по иске в рамках научно-исследовательских или опытно-конструкторских работ, при написании монографий, диссертаций, или дипломов, или статей, когда важно не только точное соответствие полученных ресурсов информационной потребности, но и полнота охваченного массива публикаций по заданной теме. Далее рассматриваются разработки именно для пользователей такого класса. Они ощущают необходимость порядка в организации поиска, получения некоторых гарантий его полноты, чтобы системы связей могли осуществлять «осмысленный» выбор между понятиями, участвующими в поисковом процессе.

ЕСТЕСТВЕННЫЕ ПРИЧИНЫ ПОТЕРЬ НУЖНОЙ ПОЛЬЗОВАТЕЛЮ ИНФОРМАЦИИ

Электронные ресурсы и их описания в виде метаданных представляют собой преимущественно тексты на естественных языках, которые трудно укладываются в жёсткие алгоритмы поисковых систем, так как живут по своим естественным законам.

Так, поиск в «Яндексе» по слову «лингвистика» даёт 69 млн результатов, а по слову «языкознание» — 45 млн (потеряны 24 млн ресурсов). Поиск по слову «языковедение» обеспечивает 22 млн результатов (по отношению к «лингвистике» потеряны 47 млн ресурсов). Этот пример позволяет сделать вывод о том, что система не работает с синонимами поискового слова, поскольку в ней не установлено отношение синонимии между лексическими единицами языка. Всего лишь отсутствие данной связи между словами уже даёт большие потери информации. Аналогичная проблема существует в большинстве электронных каталогов (ЭК) библиотек. В то же время поисковые машины сети Интернет содержат лингвистические средства учёта грамматических форм слов (падежи, множественное число и единственное и даже словообразование). Например, приравниваются друг к другу при поиске слова «глагол», «глагола», «глаголы», «глагольный», «глагольными». Полнотекстовый поиск в электронных библиотеках по идее также должен обеспечивать эти возможности. Однако большинство электронных каталогов соответствующих функций не имеет.

Ещё более серьёзные потери при поиске обусловлены отсутствием в большинстве информационных систем иерархических связей «выше — ниже» («шире — уже»). Рассмотрим в качестве примера запрос пользователя, поступивший в ЭК Российской государственной библиотеки (РГБ): «Глаголы в финно-угорских языках». Всего таких языков в мире более 30. Если в заглавии публикации нет всех указанных в запросе слов и в библиографической записи каталога не предусмотрены какие-либо рубрики или ключевые слова, то потери информации, по специальным подсчётам, составляют до 90%, т.е. пользователь может найти всего 10 документов из каждых 100, имеющихся в библиотеке по заданной им теме. Трудно представить человека, который будет вводить в запрос все финно-угорские языки один за другим или все синонимы для поисковых слов. Следовательно, в запрос пользователя необходимо программно добавлять и синонимы, и более узкие по содержанию термины или темы, и ассоциативные понятия. В последние годы такая технология в библиотечном мире обозначается термином «обогащение» (англ. enrichment).

В ЭК РГБ для обогащения запросов используется отечественная библиотечно-библиографическая классификация (ББК) в полном варианте для научных библиотек [2]. Её структура обеспечивает поиск с учётом иерархических и ассоциативных отношений между темами и частично отношения синонимии. Это видно ниже на примере.

Выбор технологии обогащения запросов дополнительными словами в зависимости от намерений пользователя

Поисковые намерения серьёзных пользователей, влияющие на выбор технологии, можно разделить на два типа:

·         требуется обеспечение поиска по введённым сочетаниям слов с получением перечня публикаций, соответствующих запросу;

·         предполагается возможность поиска по разделам или рубрикам, вниз и вверх по иерархии тематических разделов некоторого классификатора.

Первый вариант технологии поиска много лет назад обеспечен в ЭК РГБ (http://aleph.rsl.ru) следующим образом: персонал библиотеки приписывает каждому документу, поступившему в фонд РГБ, индекс ББК и вносит в библиографическую запись полную расшифровку индекса в виде цепочки словесных формулировок каждого уровня иерархии. Заметим, что в ЭК содержатся ссылки и на полнотекстовые документы в электронной библиотеке РГБ, например на диссертации.

Пример. Одна из записей на электронную диссертацию, выданных при поиске по запросу «Глаголы в финно-угорских языках»¹:


1. Записи из электронного каталога приводятся в примерах в сокращённой форме, т.е. без целого ряда элементов данных.

№ записи в ЭК 002327182

Индексы ББК Ш166.12-5,0

                       Ш166.12-212.2

Автор Богданова, Елена Викторовна

Заглавие Возвратное спряжение в диалектах карельского языка : диссертация ... кандидата филологических наук : 10.02.22

Выходные данные Петрозаводск, 2003

Тема Филологические науки. художественная литература -- языкознание -- Финно-угорские языки -- Прибалтийско-финская группа языков – карельский язык -- Диалектология и диалектография

Тема Филологические науки. художественная литература -- языкознание -- Финно-угорские языки -- Прибалтийско-финская группа языков -- карельский язык -- Грамматика -- Морфология -- части речи -- Глагол

Электронный адрес ресурса (диссертации) http://dlib.rsl.ru/rsl01002000000/rsl01002327000/rsl01002327182/rsl01002327182.pdf.

Формулировка каждого уровня индекса помещается после двух дефисов. Все термины в цепочках словесных формулировок являются поисковыми ключевыми словами в любых сочетаниях, заданных пользователем. Таким способом по умолчанию и незаметно для него обеспечивается учёт смысловых отношений между темами при поиске в ЭК. Диссертация из примера будет найдена, в частности, по запросу «Грамматика прибалтийско-финской группы языков».

Второй вариант технологии поиска в электронных каталогах (по иерархическому дереву тем) был создан на основе собственной системы навигатора. Поиск ведётся по машиночитаемым разделителям систематического каталога. Данные для построения этой классификационной модели сформированы путём оцифровки и редактирования 130 тыс. разделителей Генерального систематического каталога (ГСК) РГБ.

В навигаторе учитываются и смысловые связи между разделами классификации, и грамматические формы слов, и элементы словообразования (рис. 1 и 2).

Рис. 1 Экран навигации по иерархическому дереву классификационной модели знаний

tem-poisk-1

Рис. 2 Экран вывода результата поиска в классификационной модели знаний по словосочетанию «космический полёт»

tem-poisk-2

ПРЕДСТАВлЕНИЕ КлАССИфИКАцИИ В СРЕДЕ Semantic Web

Для того чтобы воспользоваться описанными выше сервисами c целью поиска электронных ресурсов конкретной библиотеки, человек должен сначала выбрать её вебсайт, войти в каталог, освоить его технологию, и так по отношению к каждой библиотеке. В последнее десятилетие наметилась тенденция вывода процессов поиска электронных ресурсов библиотек в открытое сетевое пространство по технологиям Linked Open Data (LOD, связанных открытых данных). При этом системы организации знаний публикуются библиотеками в виде словарей связанных данных (Linked Data vocabularies) в Семантической паутине (Semantic Web, Семантическом вебе). В течение последних двух лет специалисты РГБ ведут проект «Представление классификационных метаданных электронных библиотек по технологии связанных открытых данных (Linked Open Data)» [3]. Он поддержан грантом РФФИ № 150705265. Первая статья по данному проекту опубликована в «УК» в 2016 г. [4].

Задача публикации в LOD систем организации знаний, в частности классификаций, заключается в первую очередь в формировании отдельных утверждений, построенных в среде описания ресурсов RDF (Resource Description Framework) [5]. Ресурсами считаются любые данные, в том числе элементы классификации. Каждый ресурс получает URI (Uniform Resource Identifier — универсальный идентификатор ресурса в Сети), т.е. уникальный адрес. Любое утверждение о ресурсе структурируется в форме триплета (тройки) «субъект — предикат — объект». В технологии LOD требуется обеспечить процессы обогащения запроса поисковыми признаками исключительно с помощью программных средств (без участия человека).

Каждый классификационный индекс объявляется концептом и получает URI. В форме триплетов представляются все связи индекса с теми элементами классификации, которые могут использоваться для программного обогащения запроса человека. Таковыми считаются эквиваленты слов из формулировок (грамматические формы, результаты словообразования, синонимы и т.д.), иерархические и ассоциативные связи между индексами, ассоциативные связи (ссылки) с другими ресурсами в LOD. Полный список используемых нами элементов классификации, кодируемых в RDF, приведён в статье [3].

Покажем процесс представления в RDF некоторых элементов индекса из рассмотренного выше примера.

Для индекса Ш166.12 создаётся концепт с URI http://lod.rsl.ru/bbkgsk/concepts/%d0%A8166.12 .

Вначале определяются пространства имён, из которых берутся метки (тэги) для описания данных (выделены полужирным шрифтом):

@prefix skos: <http://www.w3.org/2004/02/skos/core#>.

@prefix rdf: <http://www.w3.org/1999/02/22rdfsyntaxns#>.

@prefix rdfs: http://www.w3.org/2000/01/rdfschema#.

<rdf:RdF xmlns:skos="http://www.w3.org/2004/02/skos/core# "> — это метка начала утверждения (записи) о концепте (индексе классификации) в целом.

Далее указывается, что обозначением на естественном языке (notation) для данного URI является Ш166.12:

<skos:notation> Ш166.12 </skos:notation>.

Здесь <skos:notation> — это метка начала записи в RDF, а </skos:notation> — метка конца записи. Далее используется аналогичная структура описания.

Затем фиксируется отношение²: Ш166.12 имеет полную цепочку формулировок «Филологические науки. Художественная литература — Языкознание — Финно-угорские языки — Прибалтийско-финская группа языков — Карельский язык»:


2. В реальных RDF-записях вместо индексов Ш166.12 и Ш166.1 указываются их URI: http://lod.rsl.ru/bbkgsk/concepts/%D0%A8166.12, http://lod.rsl.ru/bbkgsk/concepts/%D0%A8166.1 .


<skos:prefLabel xml:lang="ru"> Филологические науки. художественная литература -- языкознание -- Финно-угорские языки -- Прибалтийско-финская группа языков --карельский язык </skos:prefLabel>.


Далее фиксируем другие отношения данного индекса.

Отношение «Ш166.12 имеет вышестоящий индекс Ш166.1»:

<skos: broader xml:lang="ru"> Ш166.1 </skos: broader>.


Отношение: «Ш166.12 имеет альтернативную цепочку словесных формулировок индекса»:

<skos:altLabel xml:lang="ru"> Филологические науки. Художественная литература -- Лингвистика -- Финно-угорские языки -- Прибалтийско-финская группа языков – Карельский язык» </skos:altLabel>.


<skos: </rdf:RDF> — метка окончания утверждения относительно данного концепта в целом.

По такому принципу формируются данные в среде LOD. Это позволяет связать в Семантической паутине что угодно с чем угодно, а также обеспечить поиск открытых связанных данных стандартными программными средствами с обогащением запросов на основе зафиксированных связей. Учитывая трудоёмкость и высокую стоимость такого рода проектов, главным оказывается вопрос о том, с какими словарями и другими ресурсами целесообразно и разумно связывать собственный словарь для повышения качества информационного поиска. В частности, считается полезным включить в технологию поиска связи со статьями «Википедии», библиотечными справочниками имен лиц, наименований организаций и географических названий. Решение данного вопроса — предмет наших дальнейших исследований.

Литература

1. Knowledge Organization Systems/Services/Structures/. — Режим доступа: http://nkos.slis.kent.edu .

2. Лаврёнова О.А. Возможности пользователя при поиске в электронных библиотеках, или Витязь на распутье / Библиотековедение. — 2013. — № 3. — С. 43–52.

3. Лаврёнова О.А., Павлов В.В. Библиотечно-библиографическая классификация как традиционная система организации знаний в среде открытых связанных данных / Научно-технические библиотеки. — 2017. — № 4.

4. Шварцман М.Е., Найдин О.П. Linked Open Data как средство обогащения поисковых запросов // Университетская КНИГА. — 2015. — № 12. — С. 66–71.

5. Среда описания ресурса (RDF): понятия и абстрактный синтаксис. — Режим доступа: www.w3.org/2007/03/rdf_concepts_ru/ .

Опубликовано в номере сентябрь 2017

 



Какие форматы доступа на электронную периодику для вас наиболее интересны?
 

 


web-ban video

 

 web-ban model6

 

 web-ban neb1

 

 web-ban fz-kulture2

 

 WebBann2016-10

 

WebBann2016-04

 

WebBann2016-06

 

WebBann2016-05

 

WebBann2015-03

 
Copyright © ООО Издательский дом "Университетская книга" 2011
Все права защищены.
Студия Web-diamond.ru
разработка сайтов и интернет-магазинов.