Нейронные сети и искусственный интеллект: какой предстаёт ЭБС завтрашнего дня?

Необходимость цифровых преобразований в академической среде была чётко сформулирована заместителем председателя Правительства РФ Дмитрием Чернышенко во время совещания с ректорами российских вузов. Следующий этап цифровой трансформации, связанный в том числе с реализацией задач, изложенных в нацпроекте «Наука», программе «Цифровая экономика» и ряде других государственных инициатив, коснётся вузовских библиотек, организаций и компаний, сотрудничающих с вузами, в особенности в области предоставления доступа к электронным ресурсам.

neyronnye-seti-tikhonov

Таким образом, обозначается необходимость уже сейчас модернизировать и совершенствовать существующие электронно-библиотечные системы (ЭБС), обеспечивающие учебные и научные организации контентом в цифровом формате. Наиболее перспективное направление развития этих платформ связано с применением машинного обучения и нейронных сетей, что соответствует общему представлению о возможностях искусственного интеллекта (ИИ). Первые шаги в этом направлении уже сделаны: так, ЭБС «Лань» разработала прототип сервиса каталогизации с совершенно новым механизмом распределения учебных и научных изданий на основе технологий машинного обучения.

О перспективах развития электронных платформ и уже внедряемых технологиях рассказывает Станислав ТИХОНОВ, руководитель отдела разработки ЭБС «Лань».

— Станислав, сейчас всеобщая нацеленность на масштабную цифровую трансформацию ставит во главу угла такие термины и понятия, как ИИ, нейронные сети, машинное обучение. Расскажите, что вкладывается в каждое из этих понятий и в чём их различия.

— Распространённость этих терминов влечёт за собой неточность их осмысления. Так, ИИ в массовом представлении совершенно понятная, хоть и эфемерная сущность: это будто бы то же самое, что и наш мыслительный процесс, только искусственно созданный. Термин «машинное обучение» рождает ассоциации, связанные с Теслой, а вот нейронная сеть — нечто совершенно неопределённое. С технической точки зрения всё наоборот.

ИИ — это некоторая отсутствующая сущность, на данный момент нечто скорее метафизическое и не до конца осмысленное даже теми, кто занимается исследованиями в этой области. Можно сказать, что мы лишь подбираемся к его осмыслению.

Машинное обучение — общее обозначение всех технологий по автоматизации анализа данных, и одна из них как раз нейронная сеть. Следует отметить, что эти понятия не равны по своему объёму; нейросети лишь один из инструментов, которых немало. В целом, действительно, в СМИ и в повседневной жизни эти термины используются как синонимы, хотя за каждым из них стоит своё определение.

— Какой из этих терминов в итоге ближе к прототипу сервиса каталогизации, разработанному ЭБС «Лань»?

— Корректнее всего будет говорить о применении нейронных сетей. На самом деле с этими технологиями (а нейронные сети тоже бывают разных видов для решения различных задач) мы все так или иначе знакомы: распознавание текста и визуальных образов, воспроизведение текста голосом — всё это реализуется благодаря нейронным сетям. Самый близкий нам всем пример: качество изображения, полученного при фотосъёмке со смартфона, повышается благодаря нейросетям.

Сама идея тоже органична и естественна: искусственная нейронная сеть построена по принципу организации и функционирования биологических сетей нервных клеток живого организма. Так, например, во время занятий спортом, в процессе тренировки наши мышцы откликаются на сигналы нервной системы и чем больше и эффективнее мы тренируемся, тем лучше у нас получается.

— Расскажите подробнее о проекте, разработанном ЭБС «Лань». Чем он может быть полезен читателям, пользователям ЭБС, и библиотекарям — тем, кто работает в кабинете администратора?

— Сейчас мы подготовили прототип сервиса каталогизации, в ближайшее время будем готовы его интегрировать в ЭБС. Этот сервис позволит ускорить размещение книг на платформе, а самое главное, автоматизировать распределение изданий по тематическим направлениям и областям знаний. Ранее этот непростой процесс осуществлялся вручную.

Планируется, что обученная нейросеть станет самостоятельно классифицировать книги согласно тематическим категориям и областям знания и подбирать их по запросу пользователя по дисциплинам. Для пользователей и администраторов ЭБС это инструмент комфортной работы с платформой, которая чутко и адресно откликается на запрос, однако в действительности, когда прототип сервиса запустят, визуально изменения будут незаметными. Они выразятся только в том, что улучшится работа системы: она станет выдавать более точные результаты.

— Каким образом в целом происходит работа с искусственной нейросетью?

— Предварительно необходимо располагать большим объёмом данных, которые будут анализироваться. Все нейронные сети работают на базе датасета (dataset) — определённым образом упорядоченного набора данных. В упрощённом представлении это может быть любая таблица, где размечены строки, а в каждой из ячеек что-то расположено. Способов анализа этих данных довольно много, поскольку работа разных нейросетей основана на различных принципах (математический анализ, Big Data и т.д.) и каждая справляется с определённым типом задач.

В целом работа с данной технологией машинного обучения состоит из нескольких этапов: сначала мы собираем датасет, а затем ищем наиболее подходящую для решения нашей аналитической задачи нейросеть. Бывает так, что подходящей нейросети нет, тогда её можно создать самому, правда, на это уходят годы и огромные человеческие ресурсы. Скорее всего, оптимальная нейросеть найдётся, и тогда её нужно будет обучать.

— Как происходит обучение и какой механизм тренировки нейросети применялся в случае с сервисом каталогизации?

— Что касается обучения нейронных сетей, то в зависимости от их специфики и особенностей применяются различные технологии. В общем случае обучение происходит по принципу фидбека (обратной связи): мы конфигурируем нейросеть, «скармливаем» ей датасет и анализируем полученные результаты, указывая верные ответы, которые учитываются при дальнейшей выдаче результатов. Это может быть «живое» обучение, когда на вопросы нейросети отвечает человек, подтверждая или опровергая выданные ею результаты, или автоматизированное, когда нейросети «скармливается» датасет с набором ответов.

В случае с нашим сервисом каталогизации обучение происходило на основе векторных моделей книг, для которых выделялись необходимые атрибуты, например дисциплины. Сейчас прототип сервиса показывает очень высокий процент достоверности выдачи результатов.

— С какими трудностями может быть связан процесс обучения нейронной сети для дальнейшего выполнения такой задачи, как каталогизация?

— Во-первых, должен быть достаточный объём данных, которые нейросеть станет анализировать. В случае с сотнями тысяч книг в ЭБС «Лань» с этим не было трудностей. Следует учитывать, что нейросеть может работать и при относительно небольшом количестве данных, но тогда и достоверность результатов будет сомнительна. Мы решили пойти по пути создания качественного сервиса, поэтому и анализировали большой объём изданий.

Во-вторых, применительно к работе нейросетей важны не только данные, но и связи, которые между ними устанавливаются. Чем сложнее выстроены связи, чем больше факторов они учитывают, тем точнее и достовернее результаты.

В-третьих, несколько различается работа с научной литературой разной направленности и с учебной. Так, технические специалисты чаще применяют однозначные термины, в то время как в книгах социально-гуманитарной направленности используются более обтекаемые понятия.

— Какие перспективы влечёт за собой разработка и внедрение прототипа сервиса каталогизации, созданного ЭБС «Лань»?

— Наша основная цель — улучшение работы с клиентом, поэтому в перспективе развитие сервиса каталогизации будет нацелено на то, чтобы автоматизированно формировать подборки книг для конкретного читателя, непосредственно под его запрос.

Такое усовершенствование сервисов ЭБС лишь первые шаги на пути трансформации платформы. Это длинный и непростой путь, но в данный момент он как никогда важен. Очевидно, что уже сейчас необходимо внедрять технологии машинного обучения для модернизации сервисов агрегаторов. Уверен, что следование трендам технологического развития сегодня важно для всей отрасли.

neyronnye-seti-nikiforov

Александр НИКИФОРОВ, директор ЭБС «Лань», лидер проекта «Консорциум сетевых электронных библиотек» (СЭБ)

Что такое искусственный интеллект, нейронные сети? Минуя корректное с технической точки зрения определение, уже сейчас можно сказать, что это инструмент для достижения тех целей, которые стоят перед электронно-библиотечными системами (ЭБС) завтрашнего дня. Выбранный ЭБС «Лань» вектор развития: к пользовательской платформе с ценным и разнообразным контентом для обучения, преподавания и научной деятельности — предполагает применение современных технологий, и машинное обучение — одна из наиболее перспективных.

Цели, которые стоят перед нами, — совершенствовать возможности платформы и сервисы для комфорта пользователей — созвучны тем целям, которые разделяют не только подписчики «Лани», но и в целом все участники нашего некоммерческого проекта СЭБ, уже сейчас объединившего 284 вуза, которые разместили в едином фонде более 37 тыс. изданий.

Такая масштабная инициатива, уже поддержанная Агентством стратегических инициатив и доказавшая свою востребованность в академической среде, требует соответствующих по качеству и удобству сервисов обработки контента и работы с ним. Разрабатываемый нами прототип ML-каталогизатора позволит ускорить обработку изданий, передаваемых новыми участниками, и их размещение в едином фонде.

Вот почему для «Лани» внедрение технологий машинного обучения и нейронных сетей — логичный и необходимый путь развития.


Рубрика: Инновационные технологии

Год: 2021

Месяц: Июнь

Теги: Станислав Тихонов