Ученые из Норвежского научно-технического университета
(NTNU) под началом профессора Торбьорна Свендсена (Torbjørn Svendsen) предложили
новый метод автоматического распознавания речи на естественном языке.
Предполагается, что новый алгоритм, созданный на стыке двух основных
традиционных подходов, поможет распознавать любой язык, фиксировать речь на
исчезающих языках, а также сделать немного ближе мечту об электронике с
полноценным голосовым управлением.
Несмотря на постоянный и значительный прирост вычислительной
мощности процессоров, распознавание речи улучшается гораздо медленнее, чем
электроника. Конечно, речевые функции понемногу распространяются в телефонах,
планшетах и компьютерах, но до полного исчезновения клавиатур еще очень далеко.
Вопрос распознавания речи в реальном времени даже в наше
время является крайне непростой задачей. Даже при полном отсечении шумов
оказывается трудно найти соответствие между звуком, снятым с микрофона, и
фактически произнесенной фонемой. Даже носители одного языка говорят с
уникальными особенностями – у любого человека можно найти какой-нибудь дефект
артикуляции. Также речь зависит от возраста, пола, состояния здоровья и
образования. В итоге получается парадоксальная ситуация – повышение мощности
процессоров само по себе никак не улучшают распознавание речи.
Подход норвежских ученых сочетает в себе лучшие черты из
всех предыдущих технологий и обещает серьезный прорыв в распознавании речи.
Опытный образец системы способен находить общие характеристики самой механики
человеческого голоса. По акустическому давлению, зафиксированному на микрофоне,
система определяет, какие органы участвуют в звукоизвлечении, что сильно
упрощает определение отдельных звуков, фонем и слогов.
Большинство известных решений для распознавания речи просят
пользователей указать информацию о себе, включая возраст и основной
язык/диалект, прежде чем приступить к транскрибированию речи в первый раз. При
создании профиля также приходится прочитать пробный текст, что программа
настроилась на ваше произношение. Это необходимо, поскольку программе нужны
начальные данные для так называемого статистического распознавания.
Статистический подход помогает улучшать качество распознавания по мере
накопления опыта – алгоритм под названием «Байесовский вывод» помогает
сопоставить конкретный звук голоса со звуками из словаря. У статистического
подхода есть фундаментальный недостаток – первое время после создания нового
профиля точность оставляет желать лучшего.
Другой главенствующий подход к распознаванию – так
называемая дедукция, где основой является доскональное изучение структуры
конкретного языка, правил словообразования и произношения. Обычно при таком
подходе звуки определяются по локализации пиковых резонирующих частот, скажем,
если пик размещается в диапазоне 750-1200 герц, это, скорее всего, звук «а».
Если пик лежит в промежутке 350-800 герц, это может быть звук «у».
Система, созданная учеными из NTNU, сочетает в себе оба подхода: она собирает
данные для изучения индивидуальных особенностей произношения с постепенным
повышением точности, но, при этом реализована проверка фонетических правил на
базе анализа человеческой речи в целом.
Измерение давления на мембране микрофона должно обеспечить
гораздо более высокую точность распознавания речи, чем прежде. Например, звуки
можно поделить на звонкие (где голосовые связки вибрируют) и глухие (где
вибрации связок нет). Анализ звукового давления позволяет определить вибрацию
звуковых связок напрямую, а не по косвенным факторам вроде пиковых резонансных
частот, захваченных микрофоном.
Поскольку анатомически все люди на Земле говорят примерно
одинаково (команде авторов удалось доказать это научными методам), новый
механизм распознавания речи совершенно не привязан к конкретным языкам. Таким
образом, в отличие от прежних технологий, новую разработку можно легко
адаптировать к новому языку без значительных усилий. Это, в частности, позволяет
записывать в текстовом виде идиомы, произносимые представителями языковых
меньшинств, на что существующие коммерческие решения просто неспособны.
В данный момент коллектив авторов развивает свой модуль
распознавания речи, не привязанный к конкретному языку, чтобы в итоге создать
новый коммерческий продукт. В перспективе, он должен очень хорошо
справляться с транскрибированием текста сразу на нескольких языках, а для
определения конкретного языка системе понадобится всего 30-60 секунд прослушивания.
По материалам сайтов PhysORG и GizMag.
|