
Когда шёпот превращается в данные: как научить нейросеть слышать историю
Ночная лаборатория в Красноярске, часы показывают три десятка минут после полуночи по местному времени. Перед монитором лежит очередная запись — тридцатиминутное интервью с человеком из села на Енисее: низкий голос, длинные паузы, смех, который тут же тонет в напоминании о прошлом. Нейросеть, обученная на городских подкастах и студийных интервью, помечает многие фрагменты как «нейтральные» или «раздражение», хотя для нас, кто работал с этим фольклором и слышал те же интонации в живой беседе, очевидно: это горечь, за которой прячется гордость; это укор, замаскированный под шутку; это память, пробивающаяся через долгую молчаливую выдержку. Как сделать так, чтобы модель не только распознавала звук, но понимала смысл паузы, культурную условность смеха и то, как эмоция проявляется косвенно?
Эта история — не про идеальную инженерную задачу и не про готовые датасеты. Это рассказ о том, как молодой исследователь в цифровых гуманитарных науках пытается построить систему, которая умеет различать тонкие эмоциональные оттенки в устной истории: от сдержанной скорби до иронической памяти. Наша цель — не заменить слушателя машиной, а научить алгоритм поддерживать человеческое внимание в архивной записи и помогать исследователю, культработнику или библиотекарю быстрее находить значимые фрагменты и понимать их контекст.
Ночь, запись и непонятое молчание
Утром с той же записи у исследователя появляется ощущение вины: он прослушал десятки часов, сделал транскрипцию, пометил паузы и аффекты рукодвижений, но каждый раз, когда автоматическая метка конфликтует с тем, как он сам испытывает запись, появляется сомнение. В чем причина такой разницы? Первая версия объяснения — недостат