
Тишина между словами: как научить нейросеть слышать паузы и недосказанное в архивах тайги
Вечер в архиве на окраине Красноярска. В комнате горит одна лампа, на столе — ноутбук, наушники и стопка цифровых файлов: записи устных историй из деревень средней полосы Сибири. Илья, молодой исследователь и участник Летней школы цифровой гуманитаристики 2024, провёл весь день в прослушивании этих материалов. Он замечает не только слова — это очевидно — но и паузы, тяжёлые вздохи, короткие смешки, многозначительные «ну» и «э-э», которые повторяются в одном и том же рассказе через песню или байку. Эти элементы не попадают в стандартные расшифровки: автоматические транскрипторы обрабатывают тишину как фон, а лингвистические метки упрощают интонацию до «вопрос/утверждение». Для