Шепот чернил: как отличить авторскую правку от случайной пометы в цифровой летописи

Шепот чернил: как отличить авторскую правку от случайной пометы в цифровой летописи

Утро в читальном зале архивного фонда бывает тихим так, будто страницы сами дышат. Я разворачиваю очередной том: плотный блокнот XIX века, переписанный несколько раз, с наслоениями текста, подчёркиваниями, закрашенными фразами и пометами на полях — иногда разными чернилами и карандашом, иногда едва заметными следами пера. Прошлые руки хотели сказать что-то важное, но не всегда ясно, кому предназначалась правка и когда она появилась. От того, как мы интерпретируем этот шарм хаоса, зависит не только правильная текстологическая реконструкция, но и весь нарратив о том, как создавались тексты, как менялись решения автора, какие идеи рождались в процессе правки. Я стою перед задачей, которая сочетает практическую скрупулёзность и почти криминалистическое любопытство: научить алгоритм распознавать не просто буквы, а временные слои редактирования и статус каждой пометы — авторская правка, поздняя приписка, издательский комментарий или случайный штрих.

Первое препятствие — это многоуровневость документов. На бумаге переплетаются свидетели разных эпох: исправления, зачёркивания, вставки между строк, межстрочные стрелки, заметки на полях, красные пометки редактора. Для машинного зрения это не просто текст, это разнородный визуальный рельеф: разные типы линий, направлений, оттенки чернил и степень проникновения в основу бумаги. Мне пришлось перестать смотреть на задачу как на «распознавание текста» в привычном смысле и начать проектировать «интеллект слоёв» — систему, способную отличать слои информации по их физическим и семиотическим признакам.

Чтобы понять практическую сторону, я

Обсуждение закрыто.