English version of this page
На главную страницу
Официальный сайт кафедры Математической теории интеллектуальных систем и лабораторий Проблем теоретической кибернетики и Математичеких методов искусственного интеллекта механико-математического факультета МГУ им. М. В. Ломоносова
На первую страницу сервера Новости Кафедра Сотрудники Учеба Наука Исследования Журнал Культура Полнотекстовый поиск по серверу
 Автоматический решатель построение автоматического решателя математических задач
 Обучающие системы разработка компьютерных интеллектуальных обучающих систем
 Информационный мониторинг создание интеллектуальных систем информационного мониторинга
 Оптимальная упаковка (Packer3D) приближенное решение NP-полной задачи об упаковке контейнеров
 Распознавание визуальных образов исследования в области распознавания визуальных образов
 Направления построение автоматического решателя математических задач
 Статьи разработка компьютерных интеллектуальных обучающих систем
 Контакты создание интеллектуальных систем информационного мониторинга

Опыт применения дополнительных источников информации для решения задачи идентификации и распознавания речевого ответа в условиях шумов

Д.Н.Бабин, И.Л.Мазуренко, А.В.Уранцев
Кафедра Математичекой теории интеллектуальных систем. Тел. 939-45-04, 939-46-37, E-mail dbabin@mech.math.msu.su

Традиционные методы распознавания речи, связанные с применением одного микрофона для ввода речевой команды в компьютер, не дают высокой надежности распознавания в случае если отношение сигнал/шум составляет 0-6 дБ, вероятность ошибки при определении даже самого факта речевого ответа  в типичных случаях составляет не менее 10% (эксперименты авторов и литературные данные ).

Мы рассматривали задачу идентификации факта речевого ответа в условиях сильных шумов, при этом в качестве источников входной информации кроме обычного микрофона использовались следующие устройства: дополнительные микрофоны, фотодатчик, датчики воздушного потока, ларингофон. 

В случае уровня шумов 0-6 дБ  использование близкорасположенного дополнительного  микрофона по энергии разности  и разности энергий входных сигналов, а также по их временному сдвигу позволяет надежно установить факт речевого ответа в условиях сильных импульсных помех, таких как  говорящий рядом человек. Удаленный ( третий ) микрофон при этом позволяет оценить уровень и спектр внешних помех. Используя математические  методы очистки сигналов, удается имитировать направленный  микрофон, способный настраиваться на источник речи.

Инфракрасные светодиод и фотодиод  измеряют коэффициент отражения света от губ диктора. При идентификации факта речевого ответа использовались сигнал с фотодатчика ( фактически  ширина раскрытия рта)  и его производная ( скорость движения губ).  Удается отличать движения губ во время речевого ответа от случайных открываний рта. Этот  канал информации вообще не зависит от уровня внешних акустических и световых помех и достаточно хорошо соответствует огибающей речевого сигнала.

В качестве датчиков уровня воздушного потока использовались низкочастотный микрофон и температурный датчик воздушного потока.  Эти датчики фиксируют факт вдыхания и выдыхания, причем по характеру изменения показателей датчика обычный выдох отличается от выдоха воздуха при речевом ответе.  Типичные помехи в этом случае связаны с внешними потоками воздуха. Датчики воздушного потока позволяют   выделять взрывные согласные в речевой фразе, что значительно повышает надежность распознавания.

Сигнал с ларингофона не зависит от внешних акустических помех и выделяет из речевого сигнала только гласные звуки.

Каждый из перечисленных источников информации со свой надежностью и независимо может использоваться для решения задачи идентификации факта речевого ответа и распознавания этого ответа.  Общую надежность идентификации и распознавания удается значительно повысить, если использовать эти датчики в совокупности по причине независимости природы измеряемых ими сигналов и типичных помех, вероятность одновременного появления которых невелика.

Согласно экспериментам вероятность ошибки системы удалось понизить до величины 10-3, а надежность обнаружения речевого ответа  повысить в 10 – 100 раз.

Работа выполнена на кафедре Математической теории интеллектуальных систем механико-математического факультета МГУ им. М.В.Ломоносова

Статья была подготовлена в качестве доклада на междунароной конференции "SPECOM'98", Санкт-Петербург, 1998 г.

   © 2001-2015 г. Кафедра Математической теории интеллектуальных систем, лаборатория Проблем теоретической кибернетики Написать вебмастеру   
XWare
 Полнотекстовый поиск
 
Только точная форма слов      Выводить по результатов на странице
Rambler's Top100 Рейтинг@Mail.ru