
Шум между строк: как приучить машину слышать маргиналии, которые формируют историю
Ночь в архиве. На столе — стопка пожелтевших тетрадей с народными рассказами, записи полевых интервью с хрипом ленты и горсть листов с каракулями на полях: черточки, смятые уголки, приписки между строк. Для Марии Климовой это не просто текст: это карта человеческих решений, нерешённых мыслей и эмоциональных пометок, которые переводят фразу из «описания» в «свидетельство жизни». Она работает над проектом, где цель — научить современные инструменты не только читать слова, но и фиксировать те шумы на полях, которые обычно оказываются невидимыми для алгоритмов. Речь не о банальной оцифровке: задача — сохранить нюансы, чтобы будущие исследователи могли понять, где автор задумался, где герой смеётся, где текст был вырван из разговора.
Первый вечер показал, как далеко от идеала находятся готовые решения. Стандартные HTR-системы съели буквенные искажения, потеряли знаки ударения и интерпункцию; автоматическая разметка речи игнорировала ритм и интонационные вставки, запись смеяния и вздохов оказалась для модели шумом. Мария поняла: если не создать особую стратегию, все эти маргиналии превратятся в потерянные фрагменты культуры. И тогда начался методический и творческий процесс, где технологии и человеческая интуиция шли рука об руку.
Старые листы и новые модели: что мешает уловить маргиналии
Проблема на первый взгляд техническая: рукопись плохо распознаётся, аудиозапись содержит шумы, диалектная лексика выходит за пределы словарей. Но глубже — это проблема представления. Большинство инструментов переводят документ в последовательность лемм и метаданных, укорачивая полотно до того, что можно индексировать. Маргиналии — пометки, подчёркивания, черточки, смятые края, постраничные диалоги — не вписываются в эту модель. Они не просто «дополнительная» информация; они меняют значение, вводят сомнение, показы