Как оцифровывают память народа

На днях мне довелось побывать на «производстве» корпорации «Элар», которая собственно и занимается оцифровкой документов из ЦАМО и других архивов. Был я там уже второй раз – всегда интересно посмотреть на то, как бумажные документы, которые ранее были доступны единицам, превращаются в цифровые копии, посмотреть которые может любой (было бы желание). Честно могу сказать, что многое из того, что мне удалось найти «в полях» я обязан именно оцифрованным документам и картам – их многочасовое изучение с использованием ряда специальных программ, позволило восстановить несколько сотен километров оборонительных рубежей и даже сделать открытия.

Могу отметить, что за два года виден существенный прогресс, главным образом в организации «производства». Действительно, это напоминает огромный конвейер, сырьем для которого служат бумажные документы, а на выходе получаются их цифровые копии, описанные, распознанные и упакованные в поисковую оболочку.
Многие из нас и сами неоднократно сканировали книги и документы, и этот процесс кажется простым и понятным, однако, когда речь заходит даже не о десятках тысяч листов, а о миллионах, каждый из которых уникален, и их нельзя не то, что потерять, но даже помять, становится ясно, что, без серьезной подготовки не обойтись.
Процесс работы над копированием начинается с расшивки дел и их подготовки к сканированию. Этим занимаются специально обученные люди, в специальном помещении. Кстати, для «ЭЛАР» проекты Минобороны являются далеко не единственными – в компаниях накоплено очень много бумаги, которую необходимо перевести в электронный вид – сейчас одновременно идет 50 разных проектов.

После расшивки стопка документов передается на сканирование. Каждый оператор обрабатывает архивное дело «от корки до корки». Оцифровка ведется на так называемых планетарных сканерах: листок кладется на мягкую черную поверхность (на нее могут положить белый лист бумаги), прижимается стеклом, и «фотографируется» сверху с большим разрешением. На окнах в помещении, в котором стоит несколько десятков таких сканеров – светомаскировка, снимать со вспышкой тоже не разрешают, все это может повлиять на качество скана.

Вообще, качество проверяется на каждом этапе. Это все-таки дешевле, чем потом переделывать.
Залов-цехов с такими сканерами несколько, пришедшим на «экскурсию» показали только два из них, в других велась работа с «конфиденциальными документами», потому допуск без допуска туда запрещен. К ним могут относиться, как документы, содержащие персональную информацию (например, в документах ЦАМО замазаны адреса награжденных), так и коммерческая тайна, какой-нибудь нефтяной компании.

Лично на меня произвел впечатление сканер формата 2А0 (два А ноль) для оцифровки карт. Для понимания, А0 это размер 841 мм х 1189 мм (16 обычных листов формата А4), значит 2А0 это 1189 мм х 1682 мм. Это позволяет сканировать большинство карт из ЦАМО буквально за пару минут.

Впрочем, это не самый большой сканер, который участвовал в этом проекте – был еще и монстр 8А0, для которого, видимо, нужен отдельный зал.

Понятно, что такой сканер в магазине не купишь, надо либо заказывать, компаниям, которые их делают или проектировать и строить самому. В «ЭЛАР» решили пойти по второму пути, что оказалось выгоднее по ряду параметров. В частности, сверхбольшие сканнеры приходиться размещать на площадках заказчиков – например, в Эрмитаже, куда можно затащить не всякий импортный сканер (они могут весить порядка 3 тонн).
Есть дела, которые нельзя расшивать, то же самое относится к книгам. Их сканируют на специальных сканерах с треугольными подставками, в которых книга или дело раскрывается градусов на 90. Сверху его можно прижать таким же треугольным стеклом, что бы удержать страницы во время сканирования. Кстати, дневной норматив оператора при сканирования книг – порядка 1700 страниц – что то около 17 секунд на страницу, если исходить из 8 часового дня.

Для особо толстых книг пришлось даже сделать специальный сканер

После сканирования документы попадают в «цех» ретроконверсии. Здесь вообще запретили снимать, поскольку на экранах операторов могли оказаться документы с персональными данными. Честно говоря, я таковых не заметил, а вот документы из ЦАМО для нового проекта «Память народа» были во множестве.
Распознавание и описание документов ведется в «ручном» режиме операторами, хотя за ними стоят невидимые глазу технологии. Почему операторы? Потому что использовать системы распознавания можно далеко не всех документах. По своему опыту могу сказать, что даже старые книги очень плохо поддаются системам распознавания, за ними приходится много подчищать. Про донесения, напечатанные на чертзнаеткаких машинках на пожелтевших листах, а то и вовсе написанные от руки и говорить не приходиться. Впрочем, из них извлекается заголовок, названия упомянутых частей, авторы документа. Все это операторы вбивают в специальные поля.
Распознанные документы и книги также проходят дополнительную выверку, а в момент создания PDF к ним добавляется (тоже вручную) оглавление, которое связывается с соответствующими страницами.

Работа ведется исключительно с образами документов, которые хранятся на серверах в облаке. На локальных машинах операторов ничего нет. Причем, в Москве работает только малая часть тех, кто занимается ретроконверсией: из 3640 человек, только 340.
Значительную часть тех, кто работает над распознаванием текстов это надомники, которые могут работать в любое удобное для них время. Система учитывает их «каждое нажатие клавиш», внесенные изменения, правки. Интересно, что для того, чтобы не «палить» персональные данные, при обработке списков донесений о безвозвратных потерях, операторам выдавали лишь отдельные «кусочки» листа – например, только имена и фамилии без годов рождения. Кроме того, эти «кусочки» выдаются сразу двум операторам, после чего программа сравнивает – совпали ли их записи или нет. Это позволяет убрать большинство ошибок.

Кроме того, такая распределенная система позволяет быстро увеличивать численность работающих над проектом, например, в начале года, по проекту «Память народа» работало сразу 5000 человек. А в 2008 году, когда проходила основная работа над ОБД «Мемориал» их было 8000.
Теперь пару чайных ложек дегтя в эту бочку полную меда. «ЭЛАР» является исполнителем работ, хорошим и исполнительным исполнителем и во многом зависит от требований и возможностей заказчика. Хорошо, что у Минобороны есть бюджет на оцифровку документов и создание такой базы данных, а потому большинство претензий по полноте и устройству базы надо относить, конечно, к заказчику. Базы документов отражают действительность так, как она есть – с теми ошибками, которые в ней присутствуют. Исправление даже очевидных, идет со скрипом, что конечно затрудняет поиск. «Подвиг народа» привносит новые возможности в поиск, но я натыкался в ней на множество странностей, которые непонятно, как и кто может исправить. Создавать еще пользовательскую «надстройку» пока не планируется – в корпорации (справедливо) считают, что разные WIKI и пользовательские карты, обладают множеством недостатков, в них сложно проверить истинность тех или иных утверждений. Система модерации для такого проекта будет очень сложна и дорогостояща, а результат совсем неочевиден.

Также к заказчикам стоит отнести и такие вопросы: можно ли будет на сайте Эрмитажа посмотреть их коллекцию? Как оказалось сейчас оцифрована чуть ли не вся коллекция, которая состоит из 1,3 млн. предметов. Это не только картины, но и монеты и скульптуры и коллекция оружия. Пока Эрмитаж предполагает использовать все это для контроля фондов.

Не все гладко в проекте НЭБ.РФ – создании единой электронной библиотеки. Процесс идет, но не так быстро, как хотелось бы пользователю (то есть мне). Оказывается, из-за особенностей законодательства почти на полгода была задержана возможность регистрации через сайт Госулуг, да и сейчас регистрация через него не дает полного доступа ко всем ресурсам. Интересно, что были оцифрованы все 100% или другими словами 300 тонн диссертаций из хранилища РГБ (Ленинки) и весь карточный каталог. За несколько лет «ЭЛАР» может оцифровать и всю «Ленинку», если конечно на это будут выделены ресурсы. Конечно, скептики утверждают, что многие из хранящихся в ней книг никто никогда не будет читать, но я бы с этим поспорил. Тем более что к значительному массиву книг просто нет доступа – они штабелированы и не выдаются. UPD. С июля 2015 проект НЭБ.РФ переведен на сервера РГБ и теперь они им полностью управляют.

И завершу вновь на мажорной ноте – судя по тому, что я видел в коробках возле сканнеров и на экранах компьютеров в зале ретроконверсии – процесс оцифровки фондов ЦАМО продолжается, а значит, нас всех ожидают новые интересные находки.

gistory.livejournal.com/172662.html

magSpace.ru

Как оцифровывают память народа

0 комментариев