Шифр между строк: как научить машину слышать тишину в письмах

Шифр между строк: как научить машину слышать тишину в письмах

Едва успев поставить кружку с горячим чаем на обветренный подоконник общежития в Красноярске, он снова вернулся к сканам: аккуратно согнутые листы самиздата с штрихами ручки, потёртыми заломами и странными пропусками строк, где будто бы замерло дыхание автора. Снаружи уже полночь по сибирскому времени, за окнами — хвойный лес и слабый шум дороги, а на экране — ряды символов, ошибочные распознавания OCR и уверенные, но ошибочные ответы модели, которая принимает иронию за буквальную истину, сарказм за бессмыслицу, а замаскированные угрозы нейтрализует как орфографические погрешности.

Перед ним стояла не столько техническая задача, сколько историческая и человеческая: как обучить алгоритм распознавать скрытую ткань высказывания, ту самую «тишину» между строк, которую писатели использовали, чтобы обходить цензуру, выразить сомнение или сохранить надежду? Это не было простым вопросом о повышении точности. Это требовало пересмотра того, что мы признаём «данными»: пробелы, нестандартные переносы, пометки на полях, следы ластика и даже время, в которое автор писал текст. Нащупав эту проблему среди толстых пачек документов, он понял — перед ним шанс переосмыслить роль машин в изучении культуры и передать цифровым инструментам умение ценить не только слова, но и паузы между ними.

В центре проекта лежало несколько пересекающихся вопросов: как аннотировать невозможное, каким образом учесть контекст дефицита материалов и страх за репутацию автора, и что сделать с неверными решениями модели, чтобы они не перекроили историческое понимание текстов. Повествование о решении этих задач складывается из конкретных шагов, ошибок, маленьких успехов и новых этических требований, которые появлялись по мере продвижения.

Он начал с тщательной инвентаризации — не только текстов, но и всего, что с ними связано. Каждая страница получила не только транскрипцию, но и набор «немых» метаданных: направление нажима пера, неоднородность чернил, случайные подчёркивания, пометки на полях, следы ластика и даже запах бумаги, зафиксированный описательно. Эти элементы стали входными признаками для модели, однако ключом оказалась аннотация смысловых пауз и кодированных оборотов речи. Вместо простого

Обсуждение закрыто.