Библиотека им. Н.А. Некрасова обработала 40 тысяч сканов для электронной библиотеки «Электронекрасовка»
Бумажные фонды стареют быстрее, чем их успевают изучать: бумага со временем желтеет, чернила выцветают, а страницы могут разрушаться даже при правильном хранении. Цифровизация фондов библиотек решает сразу две задачи:
- сохранность — зафиксировать то, что ещё не утрачено и сохранить книги, газеты и другие документы для потомков,
- доступность — сделать один экземпляр доступным для тысяч читателей онлайн.
«Электронекрасовка» — электронная библиотека Библиотеки им. Н. А. Некрасова, которая работает с 2017 года. Сейчас в ней опубликовано уже больше 205 000 оцифрованных копий редких книг, газет, экслибрисов, промышленной графики и других материалов. Первые шаги в цифровизации были традиционными: библиотека сканировала материалы, собирала их в PDF и публиковала в каталоге. Со временем архив вырос, и стало ясно: на одном сервере пропускная способность ограничена, а места под резервные копии не хватает, поэтому библиотека стала искать технологического партнёра. Им в 2024 году стал Центр технологий для общества Yandex Cloud, который помог превратить идею в работающий масштабируемый процесс с помощью облачных технологий.
Благодаря использованию облачных технологий процесс оцифровки и распознавания сканов существенно ускорился — в 20 раз. Если раньше библиотека обрабатывала 1 скан за 11 минут, теперь — 1 скан за 25 секунд. Таким образом, благодаря облачным технологиям, всего за месяц библиотека смогла распознать 40 000 сканов. Раньше для такого объёма потребовалось бы больше года работы.
Процесс распознавания по такой ускоренной модели для «Электронекрасовки» был устроен так:
- Библиотека отобрала и отсканировала издания для обработки.
- С помощью нейросетей специалисты обработали массивы сканов – поворачивали сканы, при необходимости склеивали их и сортировали страницы годовых комплектов по номерам. Обработанные сканы автоматически загружаются на сайт «Электронекрасовки».
- Параллельно сканы загрузили в масштабируемое хранилище данных Yandex Object Storage.
- Виртуальная машина обработала файлы с помощью Yandex Vision OCR. Для распознавания образов, текста и сборки подготовлена специальная среда.
- Результат с текстовыми образами загрузился в систему «Электронекрасовки» и прошёл ручную проверку: сотрудники выборочно просматривали материалы и оценивали их качество.
Использование облачных сервисов стало для «Электронекрасовки» не только способом ускорить распознавание, но и шагом к более амбициозной задаче — превратить оцифрованные фонды в такой массив данных, с которым можно работать гораздо глубже: не просто искать слова в тексте, а находить факты, имена и события, связывать публикации по жанрам и контекстам, сопоставлять с другими источниками и даже визуализировать связи.
Благодаря новым технологическим мощностям Библиотека им. Н.А. Некрасова и Yandex Cloud продолжают работать над новыми онлайн-продуктами на базе уникальных оцифрованных фондов библиотеки, которые смогут дать тысячам читателей по всей России удобные инструменты для работы и интересные проекты: от умного поиска и чат-ботов до подкастов с синтетическим озвучиванием и автоматического распознавания разных типов узоров декоративной бумаги в книжном переплёте.
Подробности читайте на портале Yandex Cloud.
Пресс-служба Библиотеки им. Н.А. Некрасова
Рубрика: Новости партнеров
Дата: 30-10-2025
Теги: Электронные библиотеки ЦУНБ им. Некрасова ("Некрасовка") Яндекс