Пофразовая обработка текста
Рассмотрим второй блок лингвистического процессора (рис. 4.4). Здесь мы имеем на входе нормализованный текст и далее осуществляется пофразовая обработка этого текста. В нормализованном тексте есть только буквы и знаки препинания, нет ни чисел, ни формул, ни сокращений, ни аббревиатур. В процессе пофразовой обработки происходит выполнение следующих рассмотренных ниже операций. 1. Членение нормализованного текста на фонетические периоды, фразы и синтагмы. Напомним, что фонетический период - это такой отрезок текста, который начинается с новой строки или то, что называется в орфографии "абзац". Обычно при произношении наибольшим участком речи, который хоть как-то единообразно оформлен, является фонетический период. Следует, однако, заметить, что существующие в настоящее время синтезаторы до абзаца часто не доходят, а ограничиваются только фразами. Тем не менее обычный текст берется и прочитывается от абзаца до следующего абзаца. Далее фонетические периоды членятся на фразы. В тексте фразы чаще всего соответствуют предложениям, хотя это не всегда так. Поэтому задача членения на фразы достаточно проста в первом приближении. Менее простая задача – членение на синтагмы или членение фразы на более мелкие участки (если это необходимо, так как фраза может состоять только из одной синтагмы). Под синтагмой понимаются элементы фразы, которые обладают определенной самостоятельностью в смысле просодики, т.е. определенной ритмической структурой, определенной интонационной структурой и которые в принципе допускают некоторую паузу после того, как они были произнесены. Предложения и фразы могут быть очень длинными, тем не менее человек читает их не на одном дыхании, а разделяя на какие-то элементы по 3-4 (а иногда немного больше) слова, после которых делается дыхательная пауза, потому что возможности дыхательного аппарата не бесконечны, ему необходимо делать выдохи и вдохи, несмотря на то, что фраза еще не закончилась. 2. После членения текста на синтагмы, они должны быть промаркированы фразовыми ударениями. При выполнении данной операции определяется степень значимости синтагм в конкретной фразе. Так же как в слове, состоящем из отдельных слогов, выделяется ударный слог, так и во фразе, которая состоит из отдельных синтагм, может быть выделена та или иная синтагма, которая является главной (ударной), или даже существует иерархия синтагм по степени важности. Благодаря этому, в речи выделяется главное и второстепенное. 3. После того как промаркированы фразовые ударения, осуществляется интонационная разметка синтагм, т.е. исходя из того, какая синтагма является более или менее выраженной, где она находится во фразе, какой есть знак препинания, определяется интонационный тип синтагмы.
4. Кроме интонационной разметки синтагм, необходима информация о длительности паузы, которая должна быть реализована после каждой синтагмы. Для этого осуществляется операция паузации (расстановки длительности пауз). Длительность паузы зависит, в частности, от типа синтагмы. Например, очевидно, что после конечной синтагмы пауза длиннее, чем после начальной или срединной. На практике при осуществлении паузации обычно вводится некоторый специальный символ, который обозначает минимальное значение длительности паузы. Далее более длинные паузы обозначаются несколькими такими специальными символами. Пример осуществления паузации будет рассмотрен ниже, в завершение рассмотрения лингвистического процессора в целом. В результате работы блока пофразовой обработки текста получается синтагматически размеченный текст. Безусловно, все эти операции очень трудно делать чисто формальным путем, потому что в зависимости от того, как разобьешь фразу или текст на синтагмы, звучание текста может быть самым разным. Поэтому во всех этих блоках желательно использовать всю информацию, весь арсенал лингвистики: лексику (словарь), морфологию, синтаксис, семантику и даже прагматику. В настоящее время в основном используется словарь, в меньшей степени – морфология, еще в меньшей степени –синтаксис, а семантика и тем более прагматика практически еще не используются. Но видимо, в будущих системах, которые будут понимать смысл того, что говорится, будет обязательно использоваться семантика, а в перспективе – и прагматика. Именно здесь наиболее ценными являются результаты исследований экспертов-лингвистов. Следует также отметить, что все рассмотренные процедуры не являются жесткими (четко формализованными) и поэтому трудно алгоритмизируются. Два разных человека могут прочитать один и тот же текст совершенно по-разному. Художественное чтение, например, – это вообще особый вид искусства. Синтезаторы – пока плохие чтецы, но ведь есть и люди с плохой дикцией, порой даже хуже, чем синтезаторы.
|
Рис. Схема работы блока пофразовой обработки текста |
- 1. Фонетическое членение речи.
- 2. Звуки. Артикуляционный аспект звуков речи.
- 3. Артикуляционная характеристика звуков.
- 4. Гласные звуки. Классификация гласных звуков.
- 5. Согласные звуки. Классификация согласных звуков.
- 6. Акустический аспект звуков речи. Качественные характеристики звуков.
- 7. Функциональный аспект звуков речи (фонология). Понятие о фонеме.
- 8. Система фонем в современном русском языке.
- 9. Фонологические позиции. Сильные и слабые фонемы.
- 10. Позиционные чередования гласных фонем. Количественная и качественная редукция гласных фонем.
- 11. Позиционные чередования согласных фонем. Ассимиляция и диссимиляция по глухости/звонкости и по твердости/мягкости.
- 12. Исторические чередования фонем.
- 13. Падение редуцированных гласных фонем и последствия этого явления.
- 14. Чередования, связанные с историей носовых звуков в древнерусском языке.
- 15. Палатализация заднеязычных.
- 17. Фонетическая транскрипция. Фонематическая транскрипция
- 18. Слог. Слогораздел. Типы слогов.
- 19. Фонетическое слово. Ударение
- 20. Речевой такт. Интонация
- 21. Ударение. Интонационные конструкции
- 21. Фраза. Интонация
- 22. Понятие об орфоэпии
- 23. Основные правила русского литературного произношения.
- 24. Произношение гласных под ударением. Произношение безударных гласных.
- 25. Произношение отдельных согласных звуков.
- 26. Произношение групп согласных.
- 27. Произношение некоторых грамматических форм.
- 28. Произношение некоторых аббревиатур. Особенности произношения иноязычных слов.
- 29. Трудные случаи усвоения ударения в русском языке.
- 30. Развитие русского литературного произношения.
- 31. Грамматическое кодирование
- 32. Семантическое кодирование. Двухаргументные (временные признаки): причинность.
- 33. Семантическое кодирование. Двухаргументные (временные признаки): следствие, результат, цель.
- 34. Семантическое кодирование. Двухаргументные (временные признаки): превращение, изменение
- 35. Семантическое кодирование. Двухаргументные (временные признаки): взаимодействие, группировка, общность, объединение
- 36. Семантическое кодирование. Двухаргументные (временные признаки): разделение, влияние, условие, вхождение.
- 37. Семантическое кодирование. Двухаргументные (временные признаки): соответствие, управление, подчинение, зависимость.
- 38. Семантическое кодирование. Одноаргументные (постоянные признаки):свойство, необходимость, возможность, вероятность, есть, нет.
- 39. Семантическое кодирование. Одноаргументные (постоянные признаки): истинность, ложность.
- Семантический код. Его цели. Предназначение. Принцип построения. Возможности.
- Предназначение семантического кода. Термин «смысл».
- Предназначение семантического кода. Текст. Информация. Гипертекст в освоении информации.
- 43. Грамматический и семантический анализ при семантическом кодировании.
- 44. Русский семантический словарь сочетаемости и ассоциативный словарь при семантическом кодировании.
- Предназначение семантического кода. Системный изоморфизм.
- Предназначение семантического кода. Принцип необходимого и достаточного.
- Предназначение семантического кода. Связность классов и подклассов
- 48. Предназначение семантического кода. Принцип иерархичности/ неиерархичности.
- 49. Предназначение семантического кода. Системная метафоричность.
- 50. Ситуативный (ситуационный) семантический код.
- 51. Семантическое кодирование. Выравнивающе-толковательный код. Матрешный код.
- 52. Основные задачи и ключевые понятия речевого интерфейса.
- 53. Исторический обзор проблемы распознавания и синтеза речи.
- 54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.
- 55. Системы автоматического распознавания речи. Практические приложения речевого интерфейса.
- 56. Лингвистические основы речевого интерфейса. Использование лингвистики в реализации речевых систем.
- 57. Структура речевого сигнала. Анализ и синтез. Спектрально-временные характеристики речевого сигнала.
- 58. Информационная и модуляционная структура речевого сигнала.
- 59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.
- 60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.
- 61. Методы синтеза речевого сигнала. Формантная модель.
- 62. Компиляционные методы синтеза речевого сигнала.
- 63. Методы анализа речевого сигнала.
- 64. Метод цифровой фильтрации речевого сигнала. Спектральный анализ с использованием алгоритмов бпф. Метод цифровой фильтрации
- Спектральный анализ с использованием алгоритмов бпф
- 65. Спектральный анализ на основе линейного предсказания. Формантно-параметрическое описание речевого сигнала. Спектральный анализ на основе линейного предсказания
- Формантно-параметрическое описание речевого сигнала
- 66. Метод кепстральных коэффициентов. Особенности восприятия речи. Свойства рецептивного восприятия речи человеком. Метод кепстральных коэффициентов
- 67. Свойства рецептивного восприятия речевых сигналов. Природа слуховых (фонетических) признаков речевого сигнала. Свойства рецептивного восприятия речевых сигналов
- Природа слуховых (фонетических) признаков речевого сигнала
- 68. Свойства восприятия минимальных смыслоразличительных элементов речи
- 69. Синтез речи по тексту. Структура синтезатора речи по тексту.
- Структура синтезатора речи по тексту Ключевые понятия:
- 70. Лингвистический процессор. Предварительная обработка текста. Пофразовая обработка текста.
- Предварительная обработка текста
- Пофразовая обработка текста
- 71. Пословная обработка теста. Пример работы лингвистического процессора. Пословная обработка текста
- Пример работы лингвистического процессора
- 72. Просодический процессор
- 73.Фонетический процессор. Артикуляторно-фонетический процессор. Формантный фонетический процессор.
- 74. Аллофонный фонетический процессор. Акустический процессор.
- 75. Аппроксимация геометрии речевого такта. Акустический процессор, основанный на компиляционных методах синтеза речи.
- 76. Классификация систем автоматического распознавания речи. Методы автоматического распознавания речи.
- 77. Классификация методов распознавания речи.
- 78. Метод динамического программирования.
- 79. Метод скрытых марковских моделей.
- 80. Структурно-экспертные методы распознавания речи. Экспертный подход к фонемному распознаванию речи.
- 81. Проблемы обучения в распознавании речи и методы создания эталонных слов. Метод создания многокластерных эталонов речи.
- 82.Проблема плотных упаковок. Формульное представление знаний как вариант плотных упаковок.