Общий Толстой

В России, как и во всём мире, набирают силу коллективные подходы к осуществлению проектов – краудсорсинг и краудфандинг. Международная история этого явления довольно длительная: перевод Библии на английский язык в XIV–XV вв., пусть и с небольшой натяжкой, но можно отнести к краудсорсингу. А вот издание в XIX в. Оксфордского словаря английского языка подойдёт под это определение и безо всякой натяжки. В нашей стране тоже существуют традиции краудсорсинга – достаточно вспомнить санитарок-волонтёров XIX–XX вв. Сегодня же этот подход чаще всего используют компании, которые хотят найти решение для какой-либо творческой задачи. Другим важным и заметным способом применения краудсорсинга является поиск решения проблем. Задачи, которые удаётся решить с привлечением коллективного участия, самые разнообразные. В этой статье поделюсь с читателями одним из самых замечательных проектов, в которых мне удалось поучаствовать, – о проекте «Весь Толстой в один клик».

tolstoy

Так сложилось, что проекты, имеющие отношение к книгам или решению издательских задач, довольно однотипные. Эти проекты чаще всего представляют собой коллективное финансирование (краудфандинг) издания какого-либо произведения или собрания произведений. Нельзя сказать, чтобы всё было ориентировано на какой-то круг определённых авторов или литературных жанров, — есть и стихи, и проза, и сатирические произведения. Есть произведения и современных авторов, и писателей XIX–XX вв. Возможно, кто-то сочтёт это странным, но наши сограждане принимают активное участие в такой деятельности. Ярким свидетельством этого является проект публикации статей одного из сатириков современности, собравший почти 1 млн рублей за полтора месяца. В нём приняли участие более 800 человек.

Но сейчас я хотел бы рассказать о совершенно необычном, возможно, знаковом не только для России, но и для всего мира проекте «Весь Толстой в один клик». Необычность его, во-первых, в том, что, в отличие от других проектов, связанных с книгами, это краудсорсинговый проект, т.е. речь идёт не о коллективном финансировании, а о замене добровольцами целого штата профессионалов. Необычен он и в том, что в ходе его выполнения применялось инновационное программное обеспечение. Но прежде всего неординарность этого проекта в том, что переизданию подверглось «каноническое» полное собрание сочинений великого русского писателя Льва Николаевича Толстого, причём новое издание было выпущено в самой современной форме — в виде электронных книг. Я опишу проект с точки зрения одного из его участников, потому что проект QuadLab компании WEXLER, которую я представляю, принял участие в этой работе по приглашению её организаторов: Государственного музея Льва Толстого и компании ABBYY.

Исходное печатное издание выпускалось в течение 30 лет: с 1928 по 1958 гг. Выпуск книг прервался с началом Великой Отечественной войны и был продолжен почти сразу после её завершения. В работе над этим многотомником приняли участие самые видные литературоведы и знатоки творчества Л.Н. Толстого: В.Г. Чертков, М.А. Цявловский, А.Е. Грузинский, Н.К. Гудзий, П.Н. Сакулин и др. В полном собрании сочинений присутствуют почти все жанры творчества великого русского писателя: романы, повести, рассказы и пьесы. Статьи Льва Николаевича демонстрируют широту его общественной деятельности, включая ниву образования и отношения с церковью. Письма позволяют получить представление о взаимоотношениях Толстого со многими известными личностями того времени. Дневники открывают нам не только его личную жизнь, но и её духовную составляющую. Всё есть в этом собрании сочинений, кроме разве что вальса, который он когда-то написал. Издание охватывает буквально всю жизнь Толстого, от детских и юношеских опытов до произведений, написанных в последние годы жизни. Многотомник нашёл своё место в библиотеках ценителей и учебных заведений, но для других читателей с течением времени стал труднодоступным раритетом. До выпуска электронного издания это собрание сочинений не переиздавалось.

Музей Льва Толстого и компания ABBYY анонсировали проект «Весь Толстой в один клик» 3 июня 2013 г.: на пресс-конференции организаторы рассказали о проекте и предполагаемом ходе его выполнения. Сканирование печатного издания было осуществлено Российской государственной библиотекой в 2006 г. Для желающих принять участие в проекте планировалось создать специальный сайт. На этом сайте добровольцы получили доступ к программе ABBYY FineReader и сканированной версии собрания сочинений. На первом этапе волонтёры распознавали и вычитывали текст, затем результаты подвергались более пристальному аудиту. На завершающей стадии проекта тексты, полученные после аудита, необходимо было преобразовать в форматы электронных книг и разместить на сайте tolstoy.ru.

tolstoy1

Выполнение проекта началось 18 июня 2013 г., когда об открытии специально созданного сайта читаемтолстого.рф сообщили на пресс-конференции в музее-усадьбе Л.Н. Толстого «Хамовники». Большой неожиданностью для организаторов явилось то, что буквально за два часа участниками проекта стали 207 человек и они успели начать работу с пятью полными томами. Спустя пять дней было распознано более половины собрания сочинений. Первая часть проекта завершилась всего через 14 дней — волонтёры вычитали 46 тыс. страниц текста.

Всего во втором этапе приняли участие 238 человек, некоторые из которых смогли вычитать более 4 тыс. страниц. С полной статистикой краудсорсингового этапа проекта можно ознакомиться на сайте читаемтолстого.рф.

tolstoy2

tolstoy3

По ходу выполнения проекта добровольцы делились своими впечатлениями: некоторые отмечали простоту работы с ABBYY FineReader, несмотря на сложность текстов Толстого, поскольку значительная часть собрания сочинений издавалась ещё в дореволюционной орфографии, а сам автор использовал «оригинальные» слова. Большое впечатление на участников произвела скрупулёзность великого писателя: отдельные фрагменты широко известных произведений, таких, например, как «Анна Каренина», переписывались Толстым бессчётное количество раз. Масштабность произведений требовала от писателя масштабной же подготовки, серьёзного замысла, и этот аспект также не обошли своим вниманием добровольцы, выполнявшие проект. На многих оказывало влияние философское содержание работ Льва Николаевича. Отдельные участники проекта отмечали важность переписки Л.Н. Толстого — ведь она позволяет получить представление об эпохе, людях, которые тогда жили, и даже обиходе: увидеть тогдашний мир собственными глазами. Других же восхищала скорость развития проекта, вдохновение дарили такие же участники, как они сами.

Всего в первом этапе приняли участие 3249 человек, лучшие из них смогли обработать около 2 тыс. страниц каждый.

28 июня было объявлено о начале второго этапа работ — вычитки. Его тоже поручили волонтёрам, но только тем, кто прошёл специальный отборочный конкурс. Этот этап содержал три итерации вычитки, после которых тексты поступали уже профессиональным корректорам и редакторам.

Компания ABBYY и Музей Льва Толстого решили доверить нам участие в проекте только после непростого испытания. Думаю, что даже сейчас ещё нет других специалистов по созданию электронных книг, которые смогли бы его выдержать. 5 сентября 2013 г. организаторы проекта смогли представить широкой общественности первые три тома полного собрания сочинений в форматах электронных книг.

Небольшая предыстория, чтобы объяснить читателю, что такое QuadLab. Компания WEXLER довольно широко известна в России и ближнем зарубежье своими устройствами для чтения, планшетами и смартфонами. WEXLER не так давно проводила эксперимент по созданию единой интегрированной платформы сопровождения электронных устройств. Одним из элементов платформы была система распространения электронного контента, прежде всего книг и периодики. В ходе создания системы были разработаны различные инструменты и средства, включая программное обеспечение для создания электронных книг в разных форматах. И хотя впоследствии компания отказалась от дистрибуции электронного контента, поступить так же с разработками, на которых она базировалась, было бы слишком расточительно. Так появился проект QuadLab — подразделение WEXLER, занимающееся разработкой программного обеспечения для различных областей применения: компьютерной лингвистики, массовой обработки данных (ETL), учёта прав и тарификации продаж электронного контента, а также для выпуска электронных книг. В текущий момент QuadLab сфокусирован на средствах создания э-книг. С самого начала мы ставили перед собой цель разработки таких инструментов, которые, во-первых, позволили бы работать с ними людям, не владеющим специальными навыками, во-вторых, обеспечили бы возможность массовой, потоковой работы с электронными книгами, в-третьих, позволяли работать с широким спектром источников и, в-четвёртых, позволяли создавать э-книги, соответствующие большому набору стандартов и требований. Мы полагаем, что наши разработки помогут издателям существенно снизить издержки на производство электронных книг и тем самым составят альтернативу существующим предложениям. Но вернёмся к главной теме нашего повествования.

Итак, по ходу проекта «Весь Толстой в один клик» результаты обработки книг добровольцами передавались профессиональным редакторам и корректорам компании ABBYY. Полученные тексты подвергались профессиональной вычитке, в ходе которой помимо устранения орфографических и грамматических ошибок происходила разметка стилей и уровней иерархии. Также редакторы должны были убедиться в корректном размещении иллюстраций, таблиц и сносок. Должен отметить, что труд, выполненный сотрудниками ABBYY, беспрецедентен по своей сложности и точности. В книгах собрания сочинений огромное количество сносок и фрагментов разных стилей, ведь издание содержит разные типы текста: прозу, пьесы, статьи, стихи, заметки и дневники, а также письма. Ещё одним фактором, усложнявшим работу, была дореволюционная орфография. И нельзя обойти вниманием то, что тексты Толстого содержат «вкрапления» на разных языках: английском, французском, немецком, иврите, греческом, латыни, фарси и даже на чеченском. Поскольку в результате выполнения проекта помимо аналогов томов оригинального собрания сочинений должны были появиться и отдельные произведения, редакторам нужно было разделить на них каждый том, а иногда (в случае, например, «Анны Карениной») и, наоборот, — соединить. Не могу не сказать — работа редакторов компании ABBYY вызывает у меня восхищение.

tolstoy4

После обработки редакторами тексты поступали в QuadLab, где уже и создавались электронные книги в форматах epub, fb2, mobi и html. К моменту нашего включения в проект мы уже обладали значительным опытом в области создания электронного контента, тем не менее нам всё же пришлось столкнуться с вызовами, которые требовали от нас новых решений. С самого начала главной нашей заботой было не ухудшить результаты работы добровольцев и редакторов компании ABBYY, и я надеюсь, что у нас это получилось.

При запуске работ мы беспокоились по поводу «ятей», «еров» и других букв дореволюционного алфавита, но эти тревоги оказались напрасными, поскольку при разработке нашего ПО была предусмотрена возможность работы с юникодом. Первыми двумя настоящими задачами, над которыми нам пришлось задуматься, стали необходимость «разделения» тома на произведения и огромное количество сносок. После небольших доработок в наших инструментах появилась возможность выделять нужные фрагменты полного тома в отдельные произведения. («Рекордсменами» по числу произведений стали некоторые из последних томов, с которыми мы работали, 90-й и 38-й: 42 и 37 произведений в каждом, соответственно.) На осень и начало зимы 2013 г. пришлись тома, содержавшие произведения из раннего периода творчества Толстого. До тех пор, пока зимой мы не начали работать над «Войной и миром», мы думали, что 1 тыс. сносок на том — это много, но… мы сильно заблуждались. В одном из томов этого романа сносок оказалось более 3 тыс., что заставило нас ещё раз пересмотреть свои взгляды на работу с этим материалом. И только мы преодолели этот барьер, как тут же возник новый: все тома необходимо было «сшить» в одну электронную книгу. С этим препятствием нам удалось справиться довольно быстро — ведь раньше мы научились разделять книги и научиться их объединять было существенно проще. В результате объединения четырёх томов «Войны и мира» в одну электронную книгу у нас получилось произведение, содержащее почти 10 тыс. сносок, — практически словарь. Должен отметить, что, «Война и мир» в оригинальном собрании сочинений занимает восемь томов: четыре тома — это канонический текст, а другие четыре — черновые редакции и варианты, а также статья «Несколько слов по поводу книги "Война и мир"». Мы потом подсчитали, и оказалось, что в целом по результатам выполнения проекта мы сделали порядка 80 тыс. сносок. С наступлением января 2014 г. мы принялись за «Анну Каренину» — для нас эта книга с точки зрения видов работ оказалась похожей на «Войну и мир», поэтому уже не представляла сложности.

Долгое время мы обсуждали, какими свойствами должна обладать книга в формате html, и в начале весны 2014 г. необходимые детали были согласованы с Музеем Льва Толстого и компанией ABBYY. Стоит отметить, что мы постарались учесть не только эстетические и технические аспекты, но и предложения людей, не участвовавших в проекте. Теперь нужно было сделать так, чтобы процесс создания электронных книг был эффективным и не требовал выполнения дублирующихся работ из-за множества форматов. В результате у нас получилась цепочка рабочего процесса, где мы от самого «богатого» возможностями формата шли к самому «бедному» — от html к fb2. Для специалистов поясню, что, хотя epub и основывается на html, тем не менее мы подвергали html некоторому «упрощению» при его преобразовании в epub, чтобы исключить возможности, избыточные с точки зрения этого формата.

После перестройки процесса новым вызовом стали публикации Льва Николаевича Толстого на религиозную тематику — здесь мы столкнулись со всем разнообразием языков, которые есть в собрании сочинений. Но эту сложность благодаря редакторам ABBYY QuadLab преодолел сравнительно легко.

Весна и начало лета 2014 г. были для нас периодом дневников. Началось всё с «Дневника Яснополянской школы». «Дневники», в частности, изобиловали огромным, как нам тогда казалось, количеством таблиц — ведь в них приводится составной журнал сельской школы, которой Лев Николаевич уделял огромное внимание. Чтобы справиться с этой новой напастью, мы добавили в наши инструменты расширенные функции по работе с таблицами, и, когда позднее столкнулись с томами, содержавшими ещё большее число таблиц, они не показались нам критически сложными. Как мы подсчитали впоследствии, всего в выпущенных нами книгах содержится почти 3700 таблиц. Кроме числа таблиц, необычным было и стилевое оформление дневников, которое сильно отличается от художественного текста, поэтому нам потребовалось немного перестроить своё мышление, чтобы учесть это обстоятельство. Тогда же мы получили возможность испытать разработанное нами решение для вёрстки математических формул, поскольку они встречались как в дневниках школы, так и в личных дневниках великого русского писателя. Хотелось бы упомянуть и о пьесах — пусть это не слишком известная сторона творчества Льва Толстого, но сам он уделял им значительное внимание, обсуждая их с А.Н. Островским, и в собрании сочинений они занимают заметное место. Пьесы требуют специального оформления, отличающего их от других видов художественного текста — примерно так же, как оформление стихов отличается от прозы.

Летом и в начале осени мы делали тома, содержащие переписку Толстого, что тоже потребовало от нас определённой перестройки работ, главным образом из-за того, что в каждом томе необходимо было сделать интерактивный алфавитный указатель писем. Здесь также стоит отметить, что с началом лета мы «ускорились» и увеличили втрое число выпускаемых за месяц книг. Объём переписки, которую вёл Лев Николаевич, впечатляет: в 30 томах содержится более 10 тыс. писем. Причём здесь следует отметить, что его письма трудно соотнести с теми сообщениями, которыми мы обмениваемся сегодня. Это всё равно что сравнивать твит и статью из литературного журнала.

На завершающем этапе, который пришёлся на середину осени 2014 г., новым вызовом стал двухтомник «Азбуки». Эта книга содержит огромное количество иллюстраций, специально подобранные шрифты и особые приёмы вёрстки. Первоначально мы предполагали использовать особую разновидность формата epub — макет с фиксированной вёрсткой (fixed-layout), но позднее отказались от этой идеи. В этом произведении особенно важно было сохранить визуальную близость к оригиналу, поскольку он демонстрировал инновационное отношение Толстого к процессу обучения. Мы постарались быть максимально близкими к оригиналу, для этого мы использовали огромное количество изображений. Вообще, в собрании сочинений содержится более 5 тыс. изображений — обычных иллюстраций и строковой (inline) графики.

На протяжении всего процесса происходило активное взаимодействие с редакторами ABBYY, и в большинстве случаев у нас было около трёх-четырёх итераций правки, иногда доходило до шести. Вместе с тем я не могу не отметить, что в нескольких сложных, критических ситуациях они буквально вместе с нами делали книги.

Всего по итогам работ у нас получилось 670 книг, из которых 91 идентична томам оригинального собрания сочинений и 579 произведений, «извлечённых» из томов. Всего коллекция насчитывает 2084 файла. Должен отметить, что для 91-го тома мы сделали только html-версию, поскольку этот указатель не будет интересен в форме электронной книги, а для девяти произведений не стали делать fb2-версию в силу некоторых ограничений формата.

Сегодня результаты выполнения проекта доступны не только на сайте tolstoy.ru, но и на сайтах крупнейших российских распространителей электронных книг.

Я уверен, что участие в этом проекте оставило неизгладимый отпечаток в душе каждого участника. Всё в нём отличает его среди многих других: и отношение участников к делу — ответственное и заинтересованное, и скорость его выполнения, и его объём. Но для меня главная особенность состояла в личности писателя: я не знаю других людей, которые работали бы так много, так были вовлечены и так заинтересованно относились буквально ко всему, с чем сталкивались: и к социальным вопросам, и к литературе, и к людям, близким и посторонним, к своей отчизне и своему народу. И в заключение я бы хотел поблагодарить праправнучку великого писателя и руководителя проекта Фёклу Толстую, Музей Льва Толстого и компанию ABBYY, которые доверили нам выполнение столь ответственной работы, а также всех участников проекта, задавших планку качества, и всех сотрудников компании WEXLER — тех, кто принимал непосредственное участие в проекте, и тех, кто поддерживал нас.

Автор Саттар ГЮЛЬМАМЕДОВ, заместитель генерального директора ЗАО «Авирса проекты», руководитель центра разработки ПО WEXLER


Рубрика: Инновационные технологии

Год: 2015

Месяц: Январь/Февраль

Теги: Саттар Гюльмамедов