Новосибирск. 10 ноября. ИНТЕРФАКС-СИБИРЬ - Специалисты Новосибирского государственного технического университета (НГТУ НЭТИ) совместно с индустриальными партнерами создали систему распознавания знаков русского жестового языка для последующего перевода в звуковую форму, сообщил "Интерфаксу" профессор кафедры автоматизированных систем управления НГТУ НЭТИ Михаил Гриф.
"Для нормального перевода с точностью на уровне 90% необходимо распознавать около 5 тыс. жестов, на данный момент мы подготовили датасет (структурированный набор данных - ИФ) на 5 тыс. жестов, начали внедрение. В ближайшее время мы сделаем программу, которая будет распознавать жесты в непрерывном потоке - пока около 400 жестов, которую будем развивать", - сказал ученый на полях XVI Международной научно-технической конференции "Актуальные проблемы электронного приборостроения" в Новосибирске в пятницу.
Набор данных проводится, в основном, с помощью видеосъемки, оцифрованные изображения объединяются в базу данных, с помощью которой обучается нейросеть.
По словам Грифа, систему двустороннего перевода с языка жестов в звучащую речь и обратно, которая может быть установлена, например, на смартфон, планируется создать примерно через год.
"К концу 2024 - началу 2025 года мы представим уже более или менее качественный двусторонний переводчик", - сказал он.
Собеседник агентства отметил, что люди с ограничениями по слуху считают перевод с жестового языка в звучащую речь или текст более важной задачей, чем сурдоперевод, однако в научном плане необходимо решить ряд сложных задач.
В частности, для обучения нейросети необходимо создать выборку не только из слов жестового языка, но и из предложений, учитывать диалекты жестового языка (в русском жестовом их три), вариативность и индивидуальные особенности.
"На данный момент мы умеем уверенно распознавать 400 жестов, этого, конечно, недостаточно. В различных словарях мы насчитали 8,5 тыс. жестов, но их, наверное, еще больше. Мы оцениваем максимальное число жестов примерно в 10 тыс.", - рассказал Гриф.
Он отметил, что ранее в НГТУ НЭТИ в кооперации с партнерами была разработана система распознавания звучащей речи и ее перевод на русский жестовый язык - сурдоперевод выполняет анимированный аватар с точностью перевода около 90%.
"Там есть некоторые проблемы: неоднозначность, омонимы, другая грамматика, жестов меньше, чем слов в звучащем языке, но мы их стараемся решить. Перевод идет почти синхронно с задержкой 0,2-0,3 секунды", - сообщил ученый.
Также ведется разработка аватара для китайского жестового языка, добавил он.
Ранее сообщалось, что в НГТУ НЭТИ уже разработан обучающий курс по материаловедению с переводом на жестовый язык.
XVI Международная научно-техническая конференция "Актуальные проблемы электронного приборостроения" проходит в Новосибирске 10-12 ноября. Ее организатором выступает Новосибирский государственный технический университет НЭТИ и Сибирское отделение IEEE (Institute of Electrical and Electronics Engineers - глобальная некоммерческая инженерная ассоциация, разрабатывающая широко применяемые в мире стандарты по радиоэлектронике, электротехнике и аппаратному обеспечению вычислительных сетей и систем).
Мероприятие соберет в столице Сибири более 150 участников из 38 регионов России и пяти стран: Узбекистана, Казахстана, Китая, Германии и Индии. Направления работы конференции: электронные приборы, нанотехнологии и микросистемная техника, медицинские электронные приборы, электротехника и электроэнергетика и т.д.