71. Пословная обработка теста. Пример работы лингвистического процессора. Пословная обработка текста
Рассмотрим блок пословной обработки текста (рис.). На входе этого блока может быть уже не весь текст или фраза, а отдельное слово, так как в нем осуществляется обработка отдельных слов. Операции, выполняемые данным блоком, рассмотрены ниже. 1. Первое, что происходит, это осуществляется расстановка словесных ударений. Известно, что для русского языка это нетривиальная задача, потому что ударение в русском языке свободное, оно может находиться на любом слоге, в отличие, например, от французского языка, где ударение всегда падает на последний слог слова, чешского языка, где ударение всегда бывает на первом слоге, польского языка, где ударение всегда на предпоследнем слоге. В русском языке таких четких правил нет, поэтому, для того чтобы проставить ударения, необходимо иметь словарь ударений. Это означает, что нужно иметь полный словарь ударений, если система претендует быть системой синтеза речи по тексту неограниченного словаря, т.е. нужно хранить в словаре порядка 100 тысяч основных словоформ, а также их модификаций. Таким образом, словарь ударений может содержать до миллиона различных словоформ русского языка. В настоящий момент эта задача вполне разрешимая. Уже сейчас имеются такие словари, в частности, в компьютерных системах проверки правильности правописания и исправления грамматических ошибок. 2. После того как будут проставлены ударения в каждом слове текста, эти ударения нужно промаркировать. Маркировка ударений необходима, потому что некоторые слова могут иметь полное (сильное) ударение, некоторые – слабое (частичное) ударение (например, в сложносоставных словах), а некоторые слова, например, предлоги и частицы, вообще не имеют ударений. Поэтому, опираясь на тот же словарь, нужно промаркировать отдельные слова тем или иным типом ударений. В простейшем случае будем выделять полное ударение, частичное и отсутствие ударения (безударные слова). 3. После маркировки ударений можно приступить к объединению слов в фонетические слова, т.е. осуществить членение на фонетические слова. Эта процедура заключается в объединении безударных слов со словами, у которых есть ударение, т.е. в объединении значащих слов с их предлогами, частицами и союзами. 4. После того как получены фонетические слова, идет последний этап – это фонемное транскрибирование. Оно поддерживается своими правилами. Правила транскрибирования иначе называются правилами преобразования «буква – фонема» или алгоритмом преобразования орфографического текста в фонемный. Очевидно, что эти правила зависят от конкретного языка, так как произношение слов, а также алфавит букв и фонем в разных языках – разные. Вкратце рассмотрим эти правила ниже на примере русского языка.
|
Рисунок 4.5. Схема работы блока пословной обработки текста |
Как известно, в русском языке имеется 33 буквы и 42 фонемы. Задача фонемного транскрибирования заключается в том, чтобы преобразовать буквенную запись слова в фонемную запись. В фонетике существуют правила, по которым буквы преобразуются в фонемы в соответствии с их положением по отношению к другим буквам. Начнем рассмотрение этих правил с правил преобразования гласных. В русском языке 10 гласных букв: У, О, А, Э, Ы, И, Ю, Ё, Я, Е. Десяти гласным буквам ставятся в соответствие 6 гласных фонем: [У], [О], [А], [Э], [Ы], [И]. Получается, что 4 гласные буквы Ю, Ё, Я и Е как бы "лишние". Они превращаются либо в пары фонем, либо в отдельные фонемы следующим образом:
При этом используются следующие правила транскрибирования (Печенева Т.А.2004сост-Виды_Я_Р): 1. «Превращение гласной буквы Ю, Ё, Я или Е в пару фонем [Й] и [У], [О], [А] или [Э] соответственно происходит в тех случаях, когда эти буквы в слове стоят в одном из следующих положений: • в начале транскрибируемого слова; • после мягкого знака; • после твердого знака; • после гласной буквы». Например: вьюга -> [в й у г а], объём -> [а б й о м], яма -> [й а м а], поёт-> [п а й о т]. 2. «В остальных случаях после согласных гласные Ю, Ё, Я или Е преобразуются в фонемы [У], [О], [А] или [Э] соответственно и при этом смягчают стоящие перед ними согласные». Например: тюк -> [т' у к], лёд -> [л' о т], пять -> [п' а т'], семь -> [с' э м']. Имеются также исключения из этих правил, в частности, в тех случаях, когда рассматриваемая гласная является безударной. Например, безударная буква Я может быть преобразована в звук [И]: тянуть -> [т' и н у т’]. В русском языке есть правило о том, что безударная гласная буква О преобразуется в фонему [А], а безударная Е – в [И]. Например: молоко -> [м а л а к о], дерево -> [д’ э р и в а]. Еще правило: «Буква И после согласных Ж и Ш преобразуется в звук [Ы]». Например: жить -> [ж ы т’], шить -> [ш ы т’]. Как видно из формулировок, указанные правила хорошо описываются алгоритмически. Имеются различные правила преобразования согласных. Рассмотрим некоторые из них: 1. Правило образования звука [Щ] имеет следующий вид:
2. Фонема [Ц] образуется одним из следующих двух способов:
3. Правило оглушения: звонкая согласная перед глухой согласной или в конце слова преобразуется в парную ей глухую. Например: лёд -> [л’ о т], буг -> [б у к]. 4. Правило озвончения: если глухая согласная стоит перед звонкой, то звук преобразуется в звонкий. Например: косьба -> [к а з' б а], просьба -> [п р о з' б а]. 5. Для некоторых пар согласных работает явление уподобления. Например: сшить -> [ш ы т’]. 6. Смягчение парных согласных: если после согласной стоит мягкая согласная, то и эта согласная также смягчается. Например: хвостик -> [х в о с’ т’ и к]. Есть также исключения, например слово «бог» преобразуется в транскрипцию [б о х], а не в [б о к], слово «что» преобразуется в [ш т о]. Все эти правила хорошо известны из фонетики (Зиндер Л.Р.1979кн-Общая_Ф) и легко поддаются алгоритмизации.
- 1. Фонетическое членение речи.
- 2. Звуки. Артикуляционный аспект звуков речи.
- 3. Артикуляционная характеристика звуков.
- 4. Гласные звуки. Классификация гласных звуков.
- 5. Согласные звуки. Классификация согласных звуков.
- 6. Акустический аспект звуков речи. Качественные характеристики звуков.
- 7. Функциональный аспект звуков речи (фонология). Понятие о фонеме.
- 8. Система фонем в современном русском языке.
- 9. Фонологические позиции. Сильные и слабые фонемы.
- 10. Позиционные чередования гласных фонем. Количественная и качественная редукция гласных фонем.
- 11. Позиционные чередования согласных фонем. Ассимиляция и диссимиляция по глухости/звонкости и по твердости/мягкости.
- 12. Исторические чередования фонем.
- 13. Падение редуцированных гласных фонем и последствия этого явления.
- 14. Чередования, связанные с историей носовых звуков в древнерусском языке.
- 15. Палатализация заднеязычных.
- 17. Фонетическая транскрипция. Фонематическая транскрипция
- 18. Слог. Слогораздел. Типы слогов.
- 19. Фонетическое слово. Ударение
- 20. Речевой такт. Интонация
- 21. Ударение. Интонационные конструкции
- 21. Фраза. Интонация
- 22. Понятие об орфоэпии
- 23. Основные правила русского литературного произношения.
- 24. Произношение гласных под ударением. Произношение безударных гласных.
- 25. Произношение отдельных согласных звуков.
- 26. Произношение групп согласных.
- 27. Произношение некоторых грамматических форм.
- 28. Произношение некоторых аббревиатур. Особенности произношения иноязычных слов.
- 29. Трудные случаи усвоения ударения в русском языке.
- 30. Развитие русского литературного произношения.
- 31. Грамматическое кодирование
- 32. Семантическое кодирование. Двухаргументные (временные признаки): причинность.
- 33. Семантическое кодирование. Двухаргументные (временные признаки): следствие, результат, цель.
- 34. Семантическое кодирование. Двухаргументные (временные признаки): превращение, изменение
- 35. Семантическое кодирование. Двухаргументные (временные признаки): взаимодействие, группировка, общность, объединение
- 36. Семантическое кодирование. Двухаргументные (временные признаки): разделение, влияние, условие, вхождение.
- 37. Семантическое кодирование. Двухаргументные (временные признаки): соответствие, управление, подчинение, зависимость.
- 38. Семантическое кодирование. Одноаргументные (постоянные признаки):свойство, необходимость, возможность, вероятность, есть, нет.
- 39. Семантическое кодирование. Одноаргументные (постоянные признаки): истинность, ложность.
- Семантический код. Его цели. Предназначение. Принцип построения. Возможности.
- Предназначение семантического кода. Термин «смысл».
- Предназначение семантического кода. Текст. Информация. Гипертекст в освоении информации.
- 43. Грамматический и семантический анализ при семантическом кодировании.
- 44. Русский семантический словарь сочетаемости и ассоциативный словарь при семантическом кодировании.
- Предназначение семантического кода. Системный изоморфизм.
- Предназначение семантического кода. Принцип необходимого и достаточного.
- Предназначение семантического кода. Связность классов и подклассов
- 48. Предназначение семантического кода. Принцип иерархичности/ неиерархичности.
- 49. Предназначение семантического кода. Системная метафоричность.
- 50. Ситуативный (ситуационный) семантический код.
- 51. Семантическое кодирование. Выравнивающе-толковательный код. Матрешный код.
- 52. Основные задачи и ключевые понятия речевого интерфейса.
- 53. Исторический обзор проблемы распознавания и синтеза речи.
- 54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.
- 55. Системы автоматического распознавания речи. Практические приложения речевого интерфейса.
- 56. Лингвистические основы речевого интерфейса. Использование лингвистики в реализации речевых систем.
- 57. Структура речевого сигнала. Анализ и синтез. Спектрально-временные характеристики речевого сигнала.
- 58. Информационная и модуляционная структура речевого сигнала.
- 59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.
- 60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.
- 61. Методы синтеза речевого сигнала. Формантная модель.
- 62. Компиляционные методы синтеза речевого сигнала.
- 63. Методы анализа речевого сигнала.
- 64. Метод цифровой фильтрации речевого сигнала. Спектральный анализ с использованием алгоритмов бпф. Метод цифровой фильтрации
- Спектральный анализ с использованием алгоритмов бпф
- 65. Спектральный анализ на основе линейного предсказания. Формантно-параметрическое описание речевого сигнала. Спектральный анализ на основе линейного предсказания
- Формантно-параметрическое описание речевого сигнала
- 66. Метод кепстральных коэффициентов. Особенности восприятия речи. Свойства рецептивного восприятия речи человеком. Метод кепстральных коэффициентов
- 67. Свойства рецептивного восприятия речевых сигналов. Природа слуховых (фонетических) признаков речевого сигнала. Свойства рецептивного восприятия речевых сигналов
- Природа слуховых (фонетических) признаков речевого сигнала
- 68. Свойства восприятия минимальных смыслоразличительных элементов речи
- 69. Синтез речи по тексту. Структура синтезатора речи по тексту.
- Структура синтезатора речи по тексту Ключевые понятия:
- 70. Лингвистический процессор. Предварительная обработка текста. Пофразовая обработка текста.
- Предварительная обработка текста
- Пофразовая обработка текста
- 71. Пословная обработка теста. Пример работы лингвистического процессора. Пословная обработка текста
- Пример работы лингвистического процессора
- 72. Просодический процессор
- 73.Фонетический процессор. Артикуляторно-фонетический процессор. Формантный фонетический процессор.
- 74. Аллофонный фонетический процессор. Акустический процессор.
- 75. Аппроксимация геометрии речевого такта. Акустический процессор, основанный на компиляционных методах синтеза речи.
- 76. Классификация систем автоматического распознавания речи. Методы автоматического распознавания речи.
- 77. Классификация методов распознавания речи.
- 78. Метод динамического программирования.
- 79. Метод скрытых марковских моделей.
- 80. Структурно-экспертные методы распознавания речи. Экспертный подход к фонемному распознаванию речи.
- 81. Проблемы обучения в распознавании речи и методы создания эталонных слов. Метод создания многокластерных эталонов речи.
- 82.Проблема плотных упаковок. Формульное представление знаний как вариант плотных упаковок.