logo search
Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

77. Классификация методов распознавания речи.

Выше были рассмотрены универсальные элементы теории распознавания. В случае распознавания речи самое сложное заключается в осуществлении процедуры сравнения двух речевых элементов, которые характеризуются еще и протяженностью во времени. В настоящее время существует достаточно много таких процедур и методов (рис. 5.7).

Рисунок 5.7. Методы распознавания речи

Линейные модели распознавания речи появились раньше всего..В линейных моделях распознавания речи предполагается, что для сравнения реализации речевого сигнала с эталоном достаточно простого масштабирования во времени. Однако в речи существенны нелинейные искажения времени. Иначе говоря, линейная модель предполагала сравнение реализации с эталоном по линейному закону (рис. 5.8), тогда как изменения в реализации подвергаются нелинейным искажениям. Очевидно, что такая модель работала неудовлетворительно.

Рисунок 5.8. Схема работы линейной модели распознавания речи

Позже, учитывая недостатки линейной модели, появился метод динамического выравнивания по времениметоде динамического выравнивания по времени траектория сравнения реализации с эталоном могла отличаться от линейной. Данный метод, называемый также методом динамического программирования (ДП–методом), позволил существенно улучшить результаты распознавания. Предпосылкой создания ДП-метода было стремление нормализовать временные деформации произносимой команды, возникающие вследствие непроизвольных изменений темпа и манеры произнесения. Но некоторые недостатки у данного метода все-таки оставались. В частности, для хорошего распознавания требовались большие вычислительные ресурсы и большие объемы памяти для хранения эталонов (для каждого диктора – свой набор эталонов). Более подробно метод динамического программирования будет рассмотрен ниже.В методе скрытых марковских моделей эталон представляется не в виде цепочки отсчетов сигнала, а в виде вероятностей переходов от одних состояний к другим. Подробнее этот метод будет рассмотрен позже.Главным преимуществом указанных выше методов является то, что они дают надежные результаты распознавания при небольших затратах. Основным их недостатком является наличие слишком сложных процедур обучения. В связи с этим появился следующий активно развивающийся метод – на основе нейросетевых моделей (neuronets models). Такие модели позволяют формализовать механизм обучения более эффективноЕще один класс методов – на основе экспертных знаний (knowledge approach) – так называемые структурно-экспертные методы. Этот подход предполагает использование не только формализуемых математических моделей, но и баз знаний, формализующих некоторые речевые и языковые модели. Этот метод в настоящее время особенно перспективен для речевого распознавания, у него большое будущее. Остальные методы в чистом виде себя уже исчерпали. Поэтому часто на практике разработчики прибегают к использованию нескольких методов в рамках одной системы. В таких гибридных моделях используются все положительные качества новейших групп методов.