Гибридный подход обещает распознавание речи на любом языке // 01 Декабря 2012

Ученые из Норвежского научно-технического университета (NTNU) под началом профессора Торбьорна Свендсена (Torbjørn Svendsen) предложили новый метод автоматического распознавания речи на естественном языке. Предполагается, что новый алгоритм, созданный на стыке двух основных традиционных подходов, поможет распознавать любой язык, фиксировать речь на исчезающих языках, а также сделать немного ближе мечту об электронике с полноценным голосовым управлением.

Несмотря на постоянный и значительный прирост вычислительной мощности процессоров, распознавание речи улучшается гораздо медленнее, чем электроника. Конечно, речевые функции понемногу распространяются в телефонах, планшетах и компьютерах, но до полного исчезновения клавиатур еще очень далеко.

Вопрос распознавания речи в реальном времени даже в наше время является крайне непростой задачей. Даже при полном отсечении шумов оказывается трудно найти соответствие между звуком, снятым с микрофона, и фактически произнесенной фонемой. Даже носители одного языка говорят с уникальными особенностями – у любого человека можно найти какой-нибудь дефект артикуляции. Также речь зависит от возраста, пола, состояния здоровья и образования. В итоге получается парадоксальная ситуация – повышение мощности процессоров само по себе никак не улучшают распознавание речи.

Подход норвежских ученых сочетает в себе лучшие черты из всех предыдущих технологий и обещает серьезный прорыв в распознавании речи. Опытный образец системы способен находить общие характеристики самой механики человеческого голоса. По акустическому давлению, зафиксированному на микрофоне, система определяет, какие органы участвуют в звукоизвлечении, что сильно упрощает определение отдельных звуков, фонем и слогов.

Большинство известных решений для распознавания речи просят пользователей указать информацию о себе, включая возраст и основной язык/диалект, прежде чем приступить к транскрибированию речи в первый раз. При создании профиля также приходится прочитать пробный текст, что программа настроилась на ваше произношение. Это необходимо, поскольку программе нужны начальные данные для так называемого статистического распознавания. Статистический подход помогает улучшать качество распознавания по мере накопления опыта – алгоритм под названием «Байесовский вывод» помогает сопоставить конкретный звук голоса со звуками из словаря. У статистического подхода есть фундаментальный недостаток – первое время после создания нового профиля точность оставляет желать лучшего.

Другой главенствующий подход к распознаванию – так называемая дедукция, где основой является доскональное изучение структуры конкретного языка, правил словообразования и произношения. Обычно при таком подходе звуки определяются по локализации пиковых резонирующих частот, скажем, если пик размещается в диапазоне 750-1200 герц, это, скорее всего, звук «а». Если пик лежит в промежутке 350-800 герц, это может быть звук «у».

Система, созданная учеными из NTNU, сочетает в себе оба подхода: она собирает данные для изучения индивидуальных особенностей произношения с постепенным повышением точности, но, при этом реализована проверка фонетических правил на базе анализа человеческой речи в целом.

Измерение давления на мембране микрофона должно обеспечить гораздо более высокую точность распознавания речи, чем прежде. Например, звуки можно поделить на звонкие (где голосовые связки вибрируют) и глухие (где вибрации связок нет). Анализ звукового давления позволяет определить вибрацию звуковых связок напрямую, а не по косвенным факторам вроде пиковых резонансных частот, захваченных микрофоном.

Поскольку анатомически все люди на Земле говорят примерно одинаково (команде авторов удалось доказать это научными методам), новый механизм распознавания речи совершенно не привязан к конкретным языкам. Таким образом, в отличие от прежних технологий, новую разработку можно легко адаптировать к новому языку без значительных усилий. Это, в частности, позволяет записывать в текстовом виде идиомы, произносимые представителями языковых меньшинств, на что существующие коммерческие решения просто неспособны.

В данный момент коллектив авторов развивает свой модуль распознавания речи, не привязанный к конкретному языку, чтобы в итоге создать новый коммерческий продукт. В перспективе, он должен очень хорошо справляться с транскрибированием текста сразу на нескольких языках, а для определения конкретного языка системе понадобится всего 30-60 секунд прослушивания.

По материалам сайтов PhysORG и GizMag.

Читайте еще:

Спамеры играют на любопытстве американцев

Исследователи из компании BitDefender обнаружили новую волну спама, имитирующую сообщения прессы о нападении армии США на Иран. Ссылки в этих спам-сообщениях заставляют пользователей загружать и устанавливать вредоносное программное обеспечение на свои компьютеры. Поддельные новостные сайты, которые открываются по ссылкам из рассылаемого спама,...

09 Ноя 2012

Apple продала миллион iPhone 3G

В воскресенье, 13 июля, был продан миллионный iPhone 3G, сообщает AppleInsider со ссылкой на информацию, полученную от пресс-службы Apple. Продажи смартфона начались 11 июля. В прошлом году за первые два дня продаж купили лишь 270 тысяч смартфонов iPhone первого поколения....

18 Ноя 2012

Grishin Robotics выделила деньги на App Store для роботов

К приложениям для смартфонов привыкли все. Но приложения для роботов, как и сами роботы, пока в новинку для пользователей. А ведь настроить «под себя» теперь можно даже пылесос. Инвесткомпания Grishin Robotics, созданная сооснователем и гендиректором Mail.ru Group Дмитрием Гришиным, объявила на...

20 Дек 2012

16.04.2013

Total Commander - лучший среди файловых менеджеров

Если еще недавно все радовались появлению Windows и его «удобнейшему» интерфейсу с окнами, где перемещать...

16.04.2013

Avast - один из лучших бюджетных антивирусов

Не мало количество пользователей, не скрывающих необходимость в защите компьютера при помощи антивирусов пользуются именно...

16.04.2013

NOD32 Smart Security 6, получил обновление!

Компания ESET является одним из самых мощных разработчиков, выпускающих качественное программное обеспечение, направленное на защиту...

30.05.2012

Осторожно спам Сбербанка

В последнее время участилась массовая рассылка фишинговых электронных писем от мошенников, якобы работников Сбербанка России....

29.05.2012

Новый вирус в сети интернет

"Лаборатория Касперского" обнаружила новую вредоносную программу, которая активно используется в качестве кибероружия , распространяемого по...

архив новостей

ПОЗНАВАТЕЛЬНО

Как устроен поворотный конвейер

Онлайн инструменты для описания бизнес-процессов и подготовка ТЗ для программистов

Каким должен быть страховой ассистанс

3 удивительных способов быстро развить свой канал на YouTube

Системы видеонаблюдения для защиты вашего дома

956-45-86

Гибридный подход обещает распознавание речи на любом языке // 01 Декабря 2012

Читайте еще:

Спамеры играют на любопытстве американцев

Apple продала миллион iPhone 3G

Grishin Robotics выделила деньги на App Store для роботов

ПОЗНАВАТЕЛЬНО