Книжный рынок и издательства   Библиотеки   Образование
и наука
  Конкурс
“Университетская книга”

Март 2024
"Искусственный интеллект и научное знание"

  • Наталья ИВАНОВА: "Мы стремимся работать на опережение запросов пользователей"
  • Креативная экономика: перспективные направления
  • Самиздат в России: смелые эксперименты и креативные коллаборации
  • Вузы и устойчивое развитие



МультиВход

Интервью

Книжный рынок

Вузовские издательства

Искусство издавать

Библиотеки

Образование

Инновационные технологии

Электронные библиотеки

Культура книги

Библиогеография

Библиотехнологии

Выставки и конференции

Конкурсы и премии

Документы

Copyright.ru

КНИГА+

Год литературы

Журнал Онлайн




 

samiy-chitayuschiy-region


Рассылка


 

rgdb-podari-rebenku

Ученые впервые создадут интерактивную базу древнеславянских текстов с помощью технологий искусственного интеллекта
18.03.2020 14:46

Коллаборация ученых Института русского языка им. В.В. Виноградова РАН, НИТУ «МИСиС», НИУ ВШЭ при поддержке Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы запустила масштабный проект по созданию с помощью технологий искусственного интеллекта и машинного обучения уникальной базы древнеславянских рукописных текстов - корпуса. Создание корпуса древнеславянского языка даст исследователям-лингвистам и историкам мощный инструмент для изучения всех современных национальных славянских языков и культур и станет уникальным ключом к пониманию их наследия.

Izbornik-SvyatoslavaИзборник Святослава (фото: НИТУ МИСиС)

Корпус – это структурированная база данных языка, информационно-справочная система, основанная на собрании текстов на определенном языке в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.

Древнеславянские тексты представляют собой многообразие рукописных памятников XI – XVII веков, фундамент всех современных национальных славянских языков и культур. Создание системного корпуса языка связано с трудоемкой, тонкой и кропотливой работой, требующей объединения усилий профессионалов из различных областей и, по мнению ученых, является задачей общенационального характера.

Иеромонах Родион (Ларионов), заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы:

«В настоящее время не существует корпуса рукописных славянских текстов, и его создание рассматривается учёными различных дисциплин как важная задача. Основной объем древнеславянских – древнерусских, болгарских, сербских текстов XI – XVII веков, которые дошли до нас – это несколько тысяч богослужебных рукописей. Язык меняется от века к веку. Для ученых важно понять, во-первых, почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой. Если анализировать и систематизировать человеческими ресурсами тот объем данных, который представляют собой древнеславянские рукописи – это астрономическая работа, которая растянулась бы на века, особенно, учитывая, что профессионалов, которые способны делать эту работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести это важную работу в обозримое время».

Искусственный интеллект позволит охватить весь этот гигантский массив данных, систематизировать и создать алгоритмы расстановки лингвистической разметки – главной характеристики корпуса. Именно она отличает корпус от простой библиотеки.

Проекты по использованию цифровых подходов к анализу культурного наследия активно развиваются в европейских странах и являются прекрасным примером междисциплинарного взаимодействия. В отношении языковых памятников, можно отметить два принципиальных направления работ – преобразование сканированных изображений в «машиночитаемый» вид и построение языковых моделей, упрощающих анализ и понимание текстов. Со славянскими текстами, написание букв (графем) которых отличается витиеватостью и широким использованием диакритических знаков, таких системных наработок еще не предпринималось.

Андрей Устюжанин, ведущий эксперт Центра инфраструктурного взаимодействия и партнёрства MegaScience НИТУ «МИСиС», руководитель Научно-учебной лаборатории методов анализа больших данных НИУ Высшей школы экономики:

«Естественный язык является ключевым полигоном для развития технологий ИИ. Именно благодаря этим технологиям задачи машинного перевода, построение диалоговых систем и задачи интерпретации текстов на естественном языке получили мощный толчок в последнее время. В некотором смысле, такой проект является мостиком от культуры прошлого к технологиям будущего. По нашему опыту междисциплинарных проектов не так важно заручиться самой продвинутой технологией, как заложить основы общения людей друг с другом – специалистов по языку со специалистами по искусственному интеллекту».

Первым этапом проекта станет оцифровка и разметка комплекса древнеславянских миней XI-XVII веков на древнерусском, болгарском и сербском языках служебных церковных книг, содержащих распорядок служб всех дней церковного года, рукописи которых хранятся в собраниях Государственного исторического музея, Российской национальной и государственной библиотек, Российского государственного архива древних актов, Свято-Троицкой Сергиевой лавры.

Пресс-служба НИТУ «МИСиС»

 



telegram-1-1
 
Какие форматы доступа на электронную периодику для вас наиболее интересны?
 

 


webbanner-08-video

 

 webbanner-07-nacproekt

 

 webbanner-01-neb

 

 webbanner-02-fz-o-kulture

 

webbanner-red-03-ebs

 

webbanner-red-04-kn-rynok

 

 webbanner-red-05period-pechat

 

 webbanner-red-06-ros-poligrafiya

 

webbanner-red-kult

 
Copyright © ООО Издательский дом "Университетская книга" 2011
Все права защищены.
Студия Web-diamond.ru
разработка сайтов и интернет-магазинов.