
Когда заметки на полях учат машины: как одна архивная страница перевернула подход к цифровому архивированию
Екатерина сидела в читальном зале областного архива в Красноярске, и перед ней — плохо выравненная копия дневника из XIX века с густыми, местами почти неразличимыми надписями по краям страниц. Она не только фиксировала текст: ей нужно было научить модель понимать, что означает маленький каракуль возле даты, почему в одном случае дополнение в поле — это ремарка корреспондента, а в другом — пометка цензора. Это было не просто техническое упражнение, а попытка сохранить голос человека, его контекст и интонацию в цифровом представлении материала.
Первое, что бросалось в глаза: алгоритм, обученный по современной печатной речи, воспринимал маргиналии как «шум» и либо игнорировал их, либо склеивал в бессмысленные куски текста. Для Екатерины это означало рисковать потерей важнейших культурных маркеров — мнений, поправок, жестов внимания к определённым фразам. Перед ней стоял редкий, но острый вызов: заставить технологии не только видеть буквы, но и распознавать нюансы смысла, параязыковые отметки и материальные следы взаимодействия автора с текстом.
В этом эссе рассказывается о пути — от раздражения и сомнений до методичной работы, где сочетание технических инструментов, полевых практик и социального сотрудничества позволило преобразовать подход к цифровизации маргиналий. История Екатерины — не рассказ о величайших открытиях, а о повседневном профессионализме и последовательных решениях, которые могут пригодиться исследователям, преподавателям и практикам цифровой гуманитаристики.
Когда не считывается интонация: проблемы одного набора данных
Екатерина начинала с классической цепочки: высококачественное фотографирование страниц, базовая предобработка изображений и попытка прогнать материал через существующие HTR-системы (Handwritten Text Recognition). Результат был предсказуем: распознавание основного текста шло приемлемо, но маргинальные записи — подлинные «голоса» документа — либо пропускались, либо смешивались с основным телом. Причины оказались многослойными.
Во-первых, маргиналии часто писались другим почерком, в другом инструменте (карандаш, гусиное перо, слега размазанная печать), и имели меньший размер. Во-вторых, контекст маргиналии часто требовал распознавания не только слов, но и символов — стрелок, пунктиров, знаков сокращения, рисунков. И, наконец, многие записи — это кодовые переключения языка, транслитерация, аббревиатуры, а также эмотивные пометки (восклицания, подчёркивания) — то есть элементы, которые традиционные текстовые модели интерпретируют неправильно.
Эти проблемы — не просто ошибки распознавания. Они означали систематическое искажение источника: исчезновение соавторов, цензоров, корректоров и самого процесса создания текста. Для гуман