Российский научный фонд поддержал проект доцента кафедры информационной безопасности Института цифровых технологий, электроники и физики, кандидат физико-математических наук Андрея Александровича Лепендина по очистке голосовых сообщений от посторонних шумов.
Проект под названием «Разработка новых методов улучшения качества речевых сигналов с использованием глубоких нейронных сетей» вошел в число победителей конкурса 2021 года на получение грантов Российского научного фонда по приоритетному направлению деятельности РНФ «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами».
«Мы берем запись речи человека, сделанную в реальных условиях, – на фоне может что-то шуметь, кричать, петь – и стараемся очистить запись от ненужных фоновых искажений. Из зашумленной, «грязной» речи мы получаем чистую и красивую запись, которую потом можно будет использовать в дальнейшем, - поясняет А.А. Лепендин. – Подобные методы улучшения качества речевых сигналов уже применяются в современных программах, например в видеочатах. Однако они справляются с однородным фоновым шумом, который не меняется во времени: таким как гудение машин или техники. Стоит появиться резкому звуку, и система не успевает на него отреагировать, отчего шум проникает в запись. Поэтому наша задача – модифицировать данные методы, чтобы они могли справляться со всеми посторонними звуками и оставлять только речь человека».
По словам ученого, чистый звук требуется во многих сферах: в системе распознавания речи, которая синтезирует слова в текст, для голосовых сообщений и видеочатов, наподобие Zoom и Skype, для создания аудио- и видеоконтента. А также качественная запись звука необходима при решении задач информационной безопасности.
«Проект находится на стадии активных работ. У нас уже есть некоторые результаты, которые мы и продемонстрировали в заявке на получение гранта. Наша команда сделала хорошую модель, которая улучшает качество речевых сигналов в реальном времени – то есть успевает обрабатывать речь синхронно с тем, как говорит человек. Также у нас есть несколько интересных идей, как доработать эту модель и сделать лучший вариант. Но пока рано говорить о завершении нашего исследования», - уточняет разработчик проекта.
Над проектом ученые АлтГУ работают уже пару лет, и, по словам А.А. Лепендина, впереди им предстоит еще два года усиленной работы. Кстати, в стране не так много специалистов, занимающихся разработками в этой области, утверждает исследователь. Их можно пересчитать по пальцам: это центр речевых технологий в Санкт-Петербурге и несколько групп, работающих в крупных компаниях, например в «Яндексе» и «Сбербанке».