Новосибирск. 14 февраля. ИНТЕРФАКС - Специалисты из Исследовательского института искусственного интеллекта (AIRI, Москва) и Московского физико-технического института (МФТИ) научили нейросети, разработанные в Новосибирском госуниверситете, распознавать голосовые команды управления автономным роботом, сообщает пресс-служба НГУ.
Нейросети носят название Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM.
Отмечается, что московские специалисты предложили использовать большие языковые модели типа ChatGPT, только открытые (LLaMA2 и MiniGPT4), для автоматической генерации плана действий автономного робота в зависимости от изменяющихся условий среды с учетом поставленных человеком задач.
Идея состояла в том, что и язык, и автоматическое управление можно рассматривать как знаковую систему и, соответственно, нейросеть, которая "понимает" язык, можно доучить превращению команды, поставленной человеком, в цепочку визуально-моторных инструкций управления, обеспечивающих выполнение роботом этой команды.
"Так, например, простая команда человека "подай стакан воды" должна быть трансформирована в достаточно длинную цепочку манипуляций объектами и перемещений в пространстве, выполняемых роботом", - отмечает научный сотрудник Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ Иван Бондаренко.
По его словам, бортовой интеллект робота должен не только уметь генерировать детальный план управляющих инструкций по команде человека, но и быть способен правильно услышать голосовую команду.
"Именно эту проблему коллеги из AIRI решили с помощью нейросетевых моделей распознавания речи Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM", - говорится в сообщении.
При этом, если в качестве дополнительного этапа обработки результатов распознавания речи добавить модуль исправления опечаток, то уровень ошибок нейросетей снижается с 12,4% до 9%.
В то же время ошибки распознавания звукозаписей голосовых команд, собранные специалистами AIRI и МФТИ в конкретных условиях эксплуатации робота, возрастали до 50% и даже более, что может объясняться крайне высоким уровнем акустических шумов и спецификой установленной микрофонной системы.
После дообучения Wav2Vec2-Large-Ru-Golos на всего лишь получасе аннотированных звукозаписей голосовых команд уровень ошибок распознавания слов снизился до 20% без исправления опечаток и до 11% - с дополнительным исправлением опечаток.