Форсайт библиотек: искусство интеллекта vs искусственный интеллект

Какой быть библиотеке в обществе, пронизанном искусственным интеллектом (ИИ)? Где грань между возможным и допустимым? Как меняются внутренние процессы? На какие профессиональные и этические вызовы предстоит ответить преподавателям, библиотекарям и издателям? На эти и на другие вопросы пытались найти ответы эксперты специальной библиотечной сессии в рамках международной конференции «Форсайт образования: портрет преподавателя будущего», состоявшейся в Финансовом университете при Правительстве РФ.

СМАРТ-БИБЛИОТЕКА: ЗАПРОС НА ТРУШНОСТЬ

Как отметила директор Центра информационно-библиотечных систем Информационно-библиотечного комплекса Санкт-Петербургского политехнического университета Петра Великого Наталия СОКОЛОВА, несмотря на то что термин «смарт-библиотека» используется не очень давно, в мире это весьма популярная тема. Возник он в 2003 г., когда в библиотеке стали появляться новые технологии. Очень активно в этом направлении развиваются азиатские страны: Китай и Индия. Там полагают, что смарт — это всё связанное с технологиями, которые направлены на совершенствование профессиональных навыков библиотекарей. Американская библиотечная ассоциация поясняет, что неотъемлемые свойства смарт-библиотеки — идентификация пользователей, Интернет вещей, мобильные устройства и соответствующие изменения в инфраструктуре, а также большие данные. Безусловно, всё это не может развиваться без информационной грамотности, и библиотека становится хабом, где можно узнать обо всех новинках, которые требуются в профессиональной деятельности сотрудникам и студентам, но в принципе — всем гражданам.

По словам выступающей, смарт-библиотеки, как правило, не существуют изолированно. Публичная смарт-библиотека живёт в «умном» городе, в неё приходят подготовленные пользователи. То же самое касается вузов. Важные аспекты — «умное» управление, актуальные компетенции библиотекарей. Смарт-библиотека —это разумная сущность, которая пользуется ИИ, Интернетом вещей, для того чтобы повысить эффективность процессов и соответствовать развитию пользователей. Тема в публикациях, индексируемых в Scopus, развивается по экспоненте, особенно с приходом ChatGPT. Сервисы обучения, сенсорные датчики, тренировка нейросетей, вещей —все эти компонтенты задействованы в экосистеме смарт-библиотеки.

Эксперт отметила, что термин «экосистема» не до конца определён. Существуют цифровые экосистемы, закрытые и открытые. Экосистема университета замкнутая, но вуз открыт в мир. В любом случае это взаимодействие. На первом этапе цифровые данные университета разрозненные, но в последнее время мы всё больше говорим об интеграции, получая некий «склад» данных. Следующий вопрос —как их использовать в целях трансформации и развития. Далее мы переходим к цифровому управлению, возникает понятие фабрики данных.

—В нашем университете смарт-подход библиоцентристский. В вузе появились станции самообслуживания и «умные» полки, которые стоят в фойе, станции самовозврата. Цифровых данных множество, поэтому пространство трансформируется. Рабочие программы дисциплин не могут рекомендовать литературу, если её нет в библиотечном каталоге. Курс не идёт в зачёт преподавателю, если он не поставлен на учёт в Библиотечно-информационном комплексе. А это происходит лишь в том случае, если он утверждён учебно-методической комиссией.

Сегодня существует так называемый запрос на трушность¹.


¹ Слово ведёт своё происхождение от англ. true — истина. Поэтому «трушный» и «трушность» переводят как «настоящий», «истинный», «подлинный», «действительный», «эталонный». —Примеч. ред

Люди готовы платить за то, что действительно правильно и грамотно. У нас это касается научного контента. Процессы отлажены, но ещё есть над чем подумать. Например, система бесшовного входа, единый логин и пароль должны касаться всех ресурсов. И если нам пришлось отказаться от некоторых ЭБС, это не потому, что они некачественные: дело касается безопасности. Если агрегаторы вынуждают передавать персональные данные, это не соответствует нашей политике.

Пока нет российских альтернатив, работаем с Google Scholar и Data Science. Orcid пришёл в библиотечную среду как альтернатива авторитетным файлам, которые не стали универсальным решением. Идентификация и аутентификация должны осуществляться не только внутри вуза, но и по внешним базам. Технологию единого поиска мы успели сделать буквально за несколько месяцев до пандемии, а сегодня и eLIBRARY присоединилась к этому сообществу.

Электронная библиотека университета по рейтингам устойчивости в первой сотне мира и третья среди российских репозиториев благодаря интеграции во внешние среды. Не надо регистрироваться во множестве источников, достаточно один раз качественно вписать это в функционал библиотеки.

Более половины ресурсов у нас в открытом доступе. Но всё открыть —это ещё не открытая наука. Ждём, чтобы наши данные начали использовать другие системы. Сами агрегируем в электронной библиотеке результаты государственной итоговой аттестации и выпускные квалификационные работы, причём вся работа ведётся на безбумажной основе.

В этом году на 100% возросла востребованность подписных ресурсов, а то, что не пользуется спросом, убрали из подписки. Собранные по обратной связи с помощью стандарта Counter данные позволили это сделать.

Развивается концепция связанных данных: от «склада» мы переходим к «фабрике». Не просто научная статья, но данные, подтверждающие эксперименты. Институциональный репозиторий становится сердцем научной библиотеки. И уже внешние системы занимаются наукометрией, выстраивают графики и т.п., —отметила в завершение эксперт.

ТРАДИЦИИ И ИННОВАЦИИ: ВЫЗОВЫ И ОГРАНИЧЕНИЯ

К дискуссии подключилась директор библиотеки Московского государственного юридического университета имени О.Е. Кутафина Наталья ГОЛОВИНА:

—Раньше говорили: что может быть традиционнее библиотеки? Теперь оказывается, что ничего не может быть её инновационнее. Плюс к тому и традиции, и инновации воплощаются почти задаром теми, кто в библиотеке работает. К сожалению, функционал современной библиотеки иногда понимается превратно. Например, открытый доступ. Студенты это понимают так, что мы им должны выдать готовый файл в формате PDF. А преподаватели требуют библиографические списки, хотя это они их должны составлять. Между традициями и инновациями надо уметь балансировать, не отдавая свои заслуги в жертву хайповым темам.

Объединение сервисов библиотек приводит к тому, что мы становимся во многом одинаковыми. Обеспечиваем доступ, но за ним стоят одни и те же ресурсы. Кроме того, не надо надеяться на то, что обладатель качественного научного текста отдаст его в безвозмездное пользование: он будет защищать его всеми доступными способами. Не бывает бесплатных магазинов, юридических контор, турагентств. Здесь тоже надо думать, кто автору заплатит и за что. Открытый доступ —иллюзия. Не надо лишать занимающихся интеллектуальным трудом людей, которых становится всё меньше, возможности зарабатывать. Пользуясь чатами, платными сервисами, вы даёте возможность зарабатывать отрасли ИИ, но при этом тем, кто создаёт тексты, за счёт которых нейросети тренируются, денег не достаётся.

Как библиотекарь я чувствую огромную зависимость от других структурных подразделений университета, особенно от тех, что обладают техническими компетенциями. Но когда я начинаю взаимодействовать с техслужбами, они злоупотребляют моими представлениями о чуде. Очевидно, что у нас не хватит жизни, чтобы освоить эти компетенции, для того чтобы действовать в интересах библиотеки. Например, мне непонятно, почему именно библиотека должна работать с системой обнаружения заимствований. Библиотека почему-то должна отвечать на вопрос, какой процент той или иной работы выполнен ИИ. А ведь эти вопросы задают кандидаты и доктора наук.

Кто сказал, что библиотекарь должен уметь работать с соцсетями? Он не должен, а может, если у него есть желание, время, способности. При этом надо уметь писать так, чтобы студентам было интересно. Но сегодня наши студенты говорят о том, что хотят приходить в библиотеку учиться, а не затем, чтобы их там развлекали.

Мне кажется, надо напомнить пользователям, что библиотека — институция, работающая над тем, чтобы систематизировать и сохранить знание, а не служба, которая удовлетворяет все желания читателей.

Говоря о балансе между традициями и инновациями, начальник Управления информационно-библиотечного обеспечения Департамента исследований и прогнозирования Банка России Илья БЫКОВНИКОВ подчеркнул, что внедрение современных технологий в финансовой сфере связано с определёнными ограничениями и рисками.

—Примерно у 20% сотрудников есть доступ в Интернет, всё остальное делается по внутренней сети. Электронная доставка документов и перевод в цифровую форму —это уже традиционное обслуживание. Говорить, что компьютерное чтение при распознавании текстов — новинка, не приходится. Но проблема в том, что в банковской сфере есть особенности в использовании моделей ИИ, встраивании их в программные средства и оболочки. Мы пошли по пути не развития обслуживания, а упрощения работы профессионалов, которые им занимаются. Это в том числе сбор заказов, анализ потребностей, комплектование и каталогизация.

Будучи традиционной библиотекой, мы выпускаем обзоры. Существуют три формы: традиционная бумажная: для тех, кто приезжает из регионов, рассылка и интерактивная визуализация для молодых сотрудников. Можно читать весь текст, а можно получить набор кнопок, позволяющий дойти до того контента, который необходим. Полагали, что использование нейросетей позволит собирать информацию о новинках от издательств. Эта затея провалилась: ИИ не смог сопоставлять три параметра: что вышло в издательстве, что уже было у нас и отобрать книги без повторов. Мы получили до 75% генераций несуществующих книг. От этой идеи пришлось отказаться, поэтому до сих пор делаем обзор вручную.

Второй кейс связан с запросом на медиаконтент. Мы решили разнообразить его ещё одной новинкой —виртуальным справочником, прежде всего для новых сотрудников. Наш чат-бот Антон —простой робот, позволяющий сотрудникам получить небольшой объём информации. В основном это действительно справка. Сейчас мы уже подошли к потолку возможностей обучения без использования Интернета. В то же время есть четыре области, которые мы бы хотели поручить чат-боту: помощь в поиске издания любого вида, проверка наличия и доступности экземпляра, помощь с оформлением заказа (заполнением таблицы).

Ещё один пример — цифровая библиография. Мы не могли использовать авторитетные файлы в силу закрытости системы. БОльшая часть работы ложится на библиографов, а в качестве базы мы используем ИРБИС, в которой от оригинальной версии осталось очень мало, фактически это уже наша собственная система, разработанная в соответствии с потребностями сотрудников. Обеспечить бесшовную связку между каталогом, выдачей и трансляцией записи пользователю остаётся актуальной задачей. ИИ не справляется и с поиском. По одному из запросов нам надо было найти семь статей по определённой теме. Библиографы их обнаружить не смогли, а ChatGPT выдал именно такой список. Но ни одной из этих публикаций никогда не существовало.

Для обеспечения информацией коллег за пределами контуров банка, в том числе в коворкингах, мы в этом году откроем сайт библиотеки. Но пока лишь для того, чтобы удалённым сотрудникам предоставить те сервисы, которые они не могут получить во внутренней сети. На сайте будут открытый и закрытый разделы, второй — с доступом к каталогу по логину и паролю.

Следующий кейс, который может быть организован только вручную, — авторское право. Это фотографии, публикации в качестве препринтов и все творческие проекты библиотеки: виртуальные выставки, фото и видео, запись голоса в подкастах. Пока мы в поисках подходов к его решению.

Что касается переводов, то там ИИ-модели использовать гораздо проще, но опять же в рамках профессиональных программных продуктов. Мы учим систему тому, что документы, которые не содержат особых пометок или грифа, ложатся в базу цепочек, а переводчик одновременно становится редактором, причём редакционная часть превалирует, чтобы обеспечить единообразие терминологии, учитывая бэкграунд прошлых публикаций. Сейчас накопилось более 85 млн цепочек, и это лишь трёхлетний архив.

Таким образом, для нас сейчас всё, что связано с ИИ, —это встраивание во внутренние процессы программным способом, — отметил выступающий.

forsayt-2

ИИ-ГРАМОТНОСТЬ ИЛИ ВАКЦИНА ОТ ИНФАНТИЛИЗМА

ИИ развивается очень быстро, но проблема в том, что это развитие непредсказуемо. То, что месяц назад казалось невозможным, теперь вполне реально. Традиционный подход, когда мы закрепляем работу с конкретным сервисом, выясняем базовые принципы, показываем интерфейсы, становится неэффективным. Можно работать иначе и, вместо того чтобы рассказывать о сервисах ИИ, следует говорить об ИИ-грамотности, считает директор библиотеки Тюменского государственного университета, заведующий лабораторией академических компетенций и управления знаниями Константин КОКАРЕВ.

—ИИ давно с нами, мы с ним жили и не замечали его. Автоматизация и анализ событий в библиотеках существует уже 15–0 лет. Сейчас появились генеративные сервисы, но рассказывать пользователям, что такое большие языковые модели, по каким принципам работают нейросети, бессмысленно. Разобраться в этом можно, вопрос, нужно ли. Дело не в том, насколько хорошо мы можем объяснить техническую часть. Здесь возникают вопросы иного порядка. Может ли ИИ создать новое знание? Какие объёмы написанного нейросетью допустимы? Серьёзная тема —безопасность: надо задумываться о том, как не слить важные или даже секретные данные во время промптинга. Без ИИ-грамотности нельзя говорить о внедрении такой технологии, как генеративный ИИ, в образовательную и исследовательскую практику. Успех взаимодействия технологий и людей зависит о того, насколько оно согласовано.

Что касается конкретных форматов, то всё зависит от способа взаимодействия с преподавателями и студентами, уверен эксперт.

—Представляется целесообразным создание курса по азам грамотности в сфере ИИ для студентов. А в курсе академического письма вообще придётся объяснять, зачем надо писать. ChatGPT питается неструктурированными данными. Если не учиться их анализировать различными способами, то никакой квалификации как исследователь, специалист или даже как студент получить невозможно. Такой модуль можно было бы включить в курс обучения пользованию библиотечной системой. Конечно, первокурсник многого не поймёт. Но если на первом курсе мы не начнём ему рассказывать об этом, на четвёртом студенты будут просто собирать ворох бессмысленных данных, а ИИ им станет выдавать «оригинальные тексты». Почему так делать нельзя, они даже не поймут. Мы в вузе с трудом, но обнуляем работы, если они списаны. Очевидно, что преподавателей надо тоже просвещать в отношении того, что и как можно писать. Возможно, в ряде случаев надо предлагать студентам сдавать не сами статьи или рефераты, а обсуждать методологию или концептуализацию. Здесь проще контролировать, самостоятельны ли студенты, владеют ли они понятийным и терминологическим аппаратом. За пять минут проверить полноценную работу невозможно. А концептуальный разговор вполне реален.

Как отметил генеральный директор ГПНТБ России Александр КАРАУШ, никто не снимал с библиотеки задачи быть хабом информационной грамотности, поскольку каждое следующее поколение пользователей перестаёт применять предыдущий инструментарий поисковых средств.

—Мы, к сожалению, уже не видим «здоровых» потребителей информации. Они где-то были, всё попробовали, получили «травму» от отсутствия информации и пришли в библиотеку. Мы должны их привести из «минусового» состояния хотя бы в «нулевое», чтобы они забыли прошлые неудачи, и только потом предоставлять свои возможности. Любая алгоритмизация нашей деятельности приводит к упрощению её составляющих. Но в результате библиографа, который занимался узкой областью, мы нигде больше применить не можем. А ИИ здесь справляется плохо. Всё, что касается принятия решений на транспорте, определения, человек это или животное, всего лишь вероятностный алгоритм с 95%-ной точностью. В случае контента остальные 5% могут спровоцировать конфликт.

Распространение рекомендательных интерфейсов приводит к деградации экспертного заключения. Любого эксперта студент может завалить результатами интерфейсов. Человек знающий сомневается, тот, который не знает, вполне себе убеждён. Когда рекомендательные системы помогают, это хорошо, но, когда они довлеют, плохо. Плюс решений ИИ —это толерантность, а минус — потеря авторитета. Доказать свою экспертность, споря с ИИ, очень непросто. Надо учить пользователей понимать пределы технологий, представлять, на чём учился ИИ, постоянно оттачивать навыки работы с этими инструментами.

Важно не терять навык взаимодействия с живыми читателями. Оно практически утрачено, замещено взаимодействием «человек — машина» через интерфейс. Восстановить, что хотел пользователь, — профессиональный вызов.

Необходимо понимать, что ИИ всегда и для всех будет представлять собой чёрный ящик. Верить или не верить — дело личное. Всегда будет вопрос, ИИ —инструмент или конкретный актор принятия решения. Ещё 20 лет назад мы говорили о том, что составление библиографической карточки — дело ИИ. Сейчас он становится всё совершеннее. Этим инструментом можно играть, а можно получать с его помощью реальные результаты. Всё — лекарство и всё — яд, зависит от дозы.

ИИ В ПРОСТРАНСТВЕ СМЫСЛОВ

О том, могут ли ЭБС стать основой для обучения научных ИИ-сервисов, рассуждал генеральный директор издательского дома «Директ-Медиа» Константин КОСТЮК.

По словам эксперта, текст на сегодняшний день остаётся базовым форматом хранения знаний. Появились и другие виды: базы данных, видеоролики, тем не менее текст первичен.

—Текст — избыточный формат по сравнению с повседневным опытом. Мы не говорим текстами, они не нужны в повседневной коммуникации. Тем не менее именно текст формирует пространство смысла, культуру, цивилизацию, общество. И задача построения ИИ часто понимается не вполне корректно. Считаю, что надо строить не аналог естественного разума, а аналог текстового интеллекта. Прорыв в области ИИ произошёл за счёт обращения к текстам, и трансформер GPT задуман как дешифровщик текстов с целью создать генератор и конструктор смыслов. И основа ChatGPT —это корпус текстов для обучения нейросети. Ещё одно ключевое условие —создание большой языковой модели, описывающей всю языковую коммуникацию человека. Если представить коммуникацию как массив текстов, то язык — это матрица их генерации.

У ChatGPT и человека задача общая —освоить язык с нуля. Ребёнок это делает исходя из контакта с предметной реальностью. Трансформер GPT осваивает язык совершенно иначе. Для него не существует иной реальности, кроме языковой, смысловой, текстовой. Он конструирует язык без его употребления. Цель ИИ —построить коммуникацию на основе вероятностных связей, аналогичную человеческой. При этом система, которую он конструирует, совсем другая. Он выстраивает языковые конструкции, не понимая их предметного смысла, отталкиваясь от обратной связи, от одобрения человеком результатов. При этом возникает параллельный нашему язык, обладающий иной систематикой: язык нейросетей.

Сегодня развитие ChatGPT связано с созданием датасетов и интеграцией с другими технологиями. Базы данных —сырьё для языковых моделей, то, из чего конструируется систематика языка. ChatGPT опирался на датасеты, включающие произведения художественной литературы. Дальнейшая эволюция свойств ИИ будет определяться тем, какие тексты, какой язык ложится в его основу. Возникнет специализация: научный ИИ, досуговый, справочный, развлекательный. Для ИИ, генерирующего знания, необходима основа в виде базы научных данных. Думаю, здесь как раз будут востребованны электронные библиотеки и ЭБС. Это та база, на которой обучаются и люди —наши студенты.

Важный момент: GPT не обладает знаниями, он может только воспроизводить речь. В кооперации с другими ИИ, прежде всего экспертными системами, он превращается в интеллектуальный ресурс. Например, большой эффект даёт интеграция со словарями и справочниками. Надо понимать, что GPT —это всего лишь одна ветка развития ИИ, далеко не основная. ЭБС —база книг, учебников и монографий, содержащая практически весь универсум знаний. Это проверенный источник информаций, авторизорванный не случайными людьми, а научным сообществом, издательствами. Объём нашего датасета составляет около 150 тыс. томов, и он глубоко размечен по ключевым библиографическим параметрам, таким как жанр, формат, автор, дисциплина, тематика. Кроме того, в ChatGPT русскоязычные тексты составляют долю процента и GPT на основе русскоязычных текстов —самостоятельная ветка развития ИИ.

Как отметил генеральный директор компании «Пульс науки» Аркадий ХАЛЮКОВ, генеративный ИИ в тренде и по этой теме уже имеют место научные выводы, обобщения, форсайты, а также злоупотребления и теоретизирования. Актуальный вопрос: нейросеть самообучаема или опирается на человеческий опыт? Это замена профессии или возможность для профессионального развития? Выполняет она основные функции или вспомогательные? Как быть с авторскими правами, этическими вопросами?

С точки зрения эксперта, ИИ в университетских библиотеках может использоваться для повышения доступности информации, эффективности поиска и обработки данных для автоматизации некоторых процессов. Здесь и виртуальные ассистенты, анализ пользовательского поведения, предпочтений, поддержка научных исследований. Представители ЭБС также применяют генеративный ИИ в своей работе. Важный момент — оптимизация издательской рутины, подготовительной работы над рукописями. Востребованы такие направления, как корректура текстов, отрисовка обложек. Что касается анализа больших массивов текстов, то обойтись без генеративного ИИ крайне сложно. Развиваются проекты каталогизации книг с помощью нейросетей по областям знаний, создание оглавлений для десятков и сотен тысяч изданий. Если говорить о видеорекомендациях к текстам, то сложно представить этот процесс без использования ИИ.

—ЭБС — достаточно закрытая система, но и она координируется с системой дистанционного образования, с Moodle и т.д., и здесь необходимы генеративные инструменты. Мы встраиваемся в тренды, которые могут быть полезны для бизнеса. Но рассчитывать на то, что ИИ способен решить все задачи, безосновательно. Бояться этого, на мой взгляд, тоже не стоит. Лидеры рынка новые технологии обращают в свою пользу, —подчеркнул А. Халюков.

С точки зрения генерального директора издательского

холдинга «Инфра-М» Альбины НЕСТЕРОВОЙ, Интернет, социальные сети и ИИ —мощнейшая сила, которая способна снести в головах некритически мыслящих людей все границы, правила и законы.

— Цифровое варварство —это пренебрежение авторским правом, этикой, качеством. Когда мы говорим об ИИ применительно к образованию, вопрос в целеполагании. Ключевой показатель эффективности —получение знаний, умений и навыков. Цель онлайн-университета —продать как можно больше курсов. Задача классического вуза —выпустить качественных специалистов. Здесь роль преподавателя как живого человека очень велика. Педагог видит живую реакцию студента и понимает за долю секунды, интересна тема, понятна она или нет. Эту ценность не может заменить ни компьютер, ни онлайн-курс. В школе не учат критическому мышлению. Колледжи, вузы и библиотеки — те места, где студента сориентируют и разъяснят ему смыслы.

Издательская деятельность —креативная отрасль. Это создание информации, которой не было ранее. Оригинальность мышления, способность к синтезу —то, что невозможно подчинить алгоритму. Функция издателя, прежде всего научного, —верификация знаний, которые представил автор. ИИ с фактчекингом справиться не может, особенно при использовании русского языка, в котором одно слово может иметь до 12 значений. Корректуру и обложки нейросети мы тоже пока не отдаём, потому что справляется ИИ с этим плохо.

Анализ больших массивов —перспективное направление. Учёному, чтобы быть в теме, надо просматривать десятки и сотни документов. Здесь ИИ во благо. Это функция информационного поиска, выявления трендов и слабых сигналов, когда в разных уголках мира начинает нарастать число публикаций на определённую тематику. Крупные западные компании, финансирующие науку, изучают это «с лупой».

Что касается рекомендательной системы, то пока мы от неё в рамках проекта «Неопоиск» отказались, потому что не хотим формировать ленивого учёного, а пытаемся тренировать интеллектуальную «мышцу», которая отвечает за креативность, —отметила выступающая.

НЕЙРОСЕРВИСЫ ДЛЯ НАУЧНЫХ ИЗДАТЕЛЕЙ

С точки зрения руководителя аналитического отдела eLIBRARY.ru (ООО «Научная электронная библиотека», НЭБ) Павла АРЕФЬЕВА, уровень интереса к ИИ коррелирует с двумя показателями: кто ключевые игроки на этом рынке и сколько они с него хотят получить. Разогрев этой области зависит от финансовых потоков, которые сюда вливаются. С другой стороны, развитие ИИ вполне объективно, потому что накопился огромный объём данных и обработать их существующими алгоритмами не представляется возможным. Все программы, связанные с разработкой ИИ, —это попытки создать приемлемые алгоритмы расчётов больших данных.

—Как прогнозируют эксперты, вскоре мы перейдём от написания статей к производству данных. Сегодня очевидна инфляция качества научных статей, их ценность как источника информации снижается. На их место должны вставать цифровые модели, наборы данных. Скорее всего, в ближайшее время мы увидим изменение модели научного знания, оптимизацию системы научной коммуникации, предметного репертуара научных исследований. Это определённый вызов для тех организаций, которые профессионально связаны с обработкой информации о результатах научных исследований.

НЭБ начала искать ответ на эти вопросы приблизительно полтора года назад. Что касается публикации наборов данных, то в разметке шаблонов у eLIBRARY.ru появилась возможность вносить соответствующие метаданные. Таким образом представляется и само тело статьи, и основные метаданные, и дополнительные материалы. Сейчас мы формируем чистый, с нашей точки зрения, массив структурированной библиографической информации на основе Crossref Search. В базе 140 млн записей, большинство ресурсов открытого доступа в обязательном порядке включают Crossref Search. Актуальных библиографических списков до недавнего времени там было лишь 30%. Сейчас мы всё это вычистили, оставили около 90 млн записей, а это уже уровень Scopus. Записи отражают публикации, в которых представлены результаты деятельности мирового научного сообщества. Это тот массив, на котором уже можно вести какие-то расчёты. Но с обычными технологиями поиска там делать нечего. Перед нами стоит задача сделать поиск по-настоящему семантическим. Для этого в мае 2022 г. мы получили статус резидента инновационного центра «Воробьёвы горы», заключили договор с МГУ имени М.В. Ломоносова и сейчас работаем над созданием соответствующей интеллектуальной системы. Надеюсь, что в 2024 г. такой механизм будет запущен. Эта разработка позволит более эффективно проводить предметизацию публикаций не на основе журналов, а на основе статей.

Как отметила руководитель группы экспертов Elpub Марина ЗЕЛЬДИНА, консорциуму НЭИКОН тема ИИ интересна не только в привязке к ChatGPT и аналогичным программам. Разработка сервисов с ИИ, ещё негенеративным, началась задолго до того, как это стало мейнстримом. В 2018 г. появился открытый и бесплатный сервис «Нейроассистент научного издательства». Задачи, перед ним поставленные, —поиск пропущенных цитирований, обнаружение ключевых элементов статьи и т.п.

— Если проанализировать всё многообразие существующих на рынке решений, то они могут анализировать информацию, работать с цитированиями и ссылками, писать рецензии, проверять на заимствования, отбирать журналы по заданным параметрам, обрабатывать статистические данные. Чего можно ожидать от ChatGPT при работе с научными журналами? Очевидно, что сейчас журналы с большой вероятностью начнут получать статьи, в которых содержатся фрагменты и целые разделы, созданные ИИ. Если в редакции до сих пор приходят статьи с плагиатом, если люди позволяют себе брать чужое и не указывать источник, то почему мы надеемся, что они не воспользуются современными технологиями? Международное научное сообщество к плюсам ИИ относит снижение нагрузки, выполнение рутинных операций и получение более качественных научных результатов при понимании ограничений. Минусов гораздо больше. Есть проблемы с определением того, что текст сгенерирован, фальсифицируются источники, причём студенты, преподаватели и авторы могут пользоваться более ранними версиями ChatGPT, где таких багов гораздо больше.

Переложить ответственность на ChatGPT или другую программу за то, что она сделала, не получится. Если человек не знает, как работает сервис, всё равно он отвечает за результат. Всегда надо помнить о том, что бывают галлюцинации, и внимательно проверять то, что вы получаете на выходе.

Недавно мы с коллегами начали работу над созданием аналитических аннотаций —краткой информации о статьях в виде инфографики. Для того чтобы упростить задачу дизайнерам, мы попросили ChatGPT пересказать статью более понятным языком и составить техзадание для дизайнера. Но даже в этом случае потребовалось участие человека —профессионала в предметной области.

Принципиально важно раскрывать информацию об использовании ИИ при подготовке документов. Это уже стандартное требование любого научного журнала, в том числе Science, Nature, Elsevier. Сейчас нет ни одного издательства, которое запрещало бы использовать генеративный ИИ, но автор должен быть ответственным. Необходимо зафиксировать обязанности всех участников редакционного процесса в связи с использованием инструментов ИИ и обеспечить прозрачность. Коллеги предлагают также прикладывать результаты работы ИИ отдельным файлом, обучать пользователей на уровне конкретной редакции, предупреждать об ограничениях и ошибках, определить порядок действий при обнаружении подозрения на сгенерированный текст и опираться на рекомендации авторитетных организаций.

forsayt-3

НАЙТИ И ОБЕЗВРЕДИТЬ

Возможно ли обнаружить искусственный текст в научной работе и что делать, если его удалось найти? Тему поднял в своём выступлении исполнительный директор компании Антиплагиат Юрий ЧЕХОВИЧ:

—Является ли текст, созданный ИИ, плагиатом? Короткий ответ: нет. Но когда автор начинает этот текст использовать, он может столкнуться с юридическими рисками, потому что в условиях лицензионного соглашения с сервисом сказано, что права на сгенерированный текст принадлежат владельцу ресурса. Либо это могут быть этические нарушения. Если системы обнаружения плагиата дают низкий процент заимствований, создаётся ощущение, что в тексте нет нарушений. Эта подмена понятий часто приводит к тому, что использование искусственных текстов в научных и учебных работах становится привлекательным.

Основная миссия генератора искусственного текста — пройти тест Тьюринга. Суть его в том, чтобы ввести в заблуждение человека. Если пользователь не может определить, кто ему отвечает: человек или программа, это признак интеллекта. Лучшее, что умеют делать генеративные сети, действительно обманывать в плане формы, потому что текст очень похож на человеческий. Соответственно необходимы тесты-антитьюринги. Есть идея, что на сгенерированные тексты можно ставить некие «водяные знаки», которые не видные читателю, но могут быть обнаружены машиной. Однако это практически нереализуемо. Если ChatGPT такую практику введёт, сразу же появятся конкуренты, которые этот недостаток устранят.

Антиплагиат разработал детектор искусственного текста. С мая 2024 г. все подписчики системы получат возможность проверить загружаемые тексты на искусственность. Если работа содержит в себе сгенерированные фрагменты, то система подсвечивает документ как подозрительный и даёт возможность разобраться с ним в отчёте. Но поскольку полной базы искусственных текстов не существует, никто не может гарантировать, что данная работа написана алгоритмом. Это серьёзная проблема, которая приводит к необходимости вводить изменения в научный и образовательный процессы. Старые формы передачи знаний и формирования навыков перестают работать. И способы контроля тоже следует менять. Скорее всего, мы не сможем существовать в прежней научно-образовательной парадигме.

Подводя итог, эксперт отметил: не следует воспринимать развитие ИИ как борьбу нового со старым. Но мы как специалисты в области научной информации должны понимать, что необходимо правильно использовать каждый инструмент.

— На мой взгляд, ключевые проблемы создаёт не появление новых технологий: риски связаны с непониманием того, для чего созданы сервисы и где пролегают границы их возможностей, —подчеркнул Ю. Чехович.


Рубрика: Вузовские библиотеки

Год: 2024

Месяц: Март

Теги: Искусственный интеллект (ИИ) Константин Костюк Альбина Нестерова Аркадий Халюков Константин Кокарев Илья Быковников Александр Карауш Наталья Соколова Юрий Чехович Павел Арефьев Марина Зельдина Вузовские библиотеки Наталья Головина