Сотрудники Санкт-Петербургского федерального исследовательского центра РАН обучили искусственный интеллект понимать русскую речь по движениям губ человека.
Программу можно установить на любой смартфон с видеокамерой. Это первая нейросеть в мире, способная понимать таким способом русский язык, со ссылкой на Минобрнауки сообщают «Известия».
Разработку придумали, чтобы сделать возможным использование электронных голосовых ассистентов в условиях шума. Теперь их помощью смогут воспользоваться водители грузовых автомобилей, пилоты и другие профессионалы, работа которых связана с оборудованием, издающим громкие звуки.
«Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает по губам слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и изучает информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях», — рассказал старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.
Перед учеными стояла цель — добиться от нейросети лучшего понимания человека посредством визуальных и звуковых сигналов. Чтобы этого добиться, они использовали метод машинного обучения. Материалом для нейросети стали видео со звуком, где человек произносит определенные слова. Так компьютер научился понимать самые обыденные и часто используемые команды.
К тому же он сам может определить, как добиться максимальной точности распознавания слов, по звуку или по картинке.
Качество работы системы уже успешно испытали в условиях реальной работы водители грузовых машин российских транспортных компаний. Для этого приложение установили на их телефоны. Оказалось, что по картинке слова распознаются с точность 60–80%, а вместе со звуком этот показатель вырос до 90%.