Пример работы лингвистического процессора
Итак, лингвистический процессор преобразует исходный орфографический текст в размеченный фонемный текст. При этом, наряду с удалением из этого текста некоторых специальных символов, не имеющих отношения к естественному языку, в него «внедряются» другие специальные символы, которые обозначают, в частности, границы фраз, фонетических периодов, синтагм, ударения различного типа, а также фонемы. Таким образом, исходный текст подготавливается к его «восприятию» речевой системой. Точно так же в человеческом мозгу, незаметно для нас самих, происходят в чем-то подобные описанным выше действиям операции. Когда мы видим перед собой текст, мы «вспоминаем» правила чтения, и на начальном этапе подготовки к чтению этого текста в мозгу формируется некоторое подобие размеченного фонемного текста, в котором буквы заменяются на фонемы, а фразы разбиваются на составляющие, подобные синтагмам. Особенно наглядно это можно проследить в случае изучения человеком правил чтения на иностранном языке. Рассмотрим конкретный пример превращения орфографического текста в фонемный в соответствии с теми основными шагами, которые были описаны выше. Возьмем следующий абзац естественно-языкового текста: «Вы, как видно, ещё не понимаете, что человека могли ждать друзья, а его опоздание на целые сутки расстраивает все планы и может повлечь за собой массу неудобств. – Ах! Так дело было в этом? – Вот именно.» Этап предварительной обработки данного текста мы опустим, так как здесь нет ни сокращений, ни чисел, ни формул, а специальные символы нами не воспринимаются, так как мы видим исходный текст в том виде, в котором нам удобнее всего его читать. Единственное, что можно было бы удалить, так это символы «–», обозначающие прямую речь, но мы их оставим, опять же, для удобства восприятия. На этапе пофразовой обработки текста следует отметить, что данный отрывок текста представляет собой типичный фонетический период, равный абзацу. Этот период состоит из четырех фраз разной длительности. Первая фраза очень длинная и состоит из нескольких синтагм, вторая фраза состоит всего лишь из одного слова, третья и четвертая фразы – из одной синтагмы. Также эти фразы различаются интонационно: первая и четвертая – повествовательные или фразы с завершенной интонацией, вторая – восклицательная, третья – вопросительная. Рассмотрим более подробно расстановку границ синтагм и будем использовать обозначения, введенные нами в разделе 2 (знак «/» обозначает границу синтагмы). На начальной стадии рассмотрения данного текста воспользуемся следующими очевидными правилами: • первым признаком границ между синтагмами являются знаки препинания; • без всякого риска конец синтагмы можно ставить перед союзом "и". В этом случае получаем следующую начальную разметку: «Вы /, как видно /, ещё не понимаете /, что человека могли ждать друзья /, а его опоздание на целые сутки расстраивает все планы / и может повлечь за собой массу неудобств /. – Ах /! Так дело было в этом /? – Вот именно /.» Но это еще не все. Рассмотрим более подробно правила членения на синтагмы первой самой длинной фразы. Пятая полученная нами «синтагма» данной фразы, между союзами «а» и «и», является слишком длинной и членится на две более мелкие синтагмы следующим образом. Известно, что граница синтагмы не должна стоять между определяемым и определяющим словом. Например, «а его опоздание на целые» нельзя отделить от слова «сутки», так как ясно, что слова «целые» и «сутки» связаны, следовательно между ними никак нельзя поставить границу синтагмы. Границу можно поставить после слова «сутки», так как слова «сутки» и «расстраивает» не связаны между собой. Аналогично в последней, тоже слишком длинной «синтагме» нельзя поставить границу между словами «может» и «повлечь», а также между словами «повлечь» и «за собой», так как они тоже связаны. А вот слова «собой» и «массу» уже не связаны, следовательно, между ними можно ставить границу синтагмы. Напомним, что самые надежные критерии связанности слов – синтаксические правила. Но можно судить о границе синтагмы по более простым правилам, связанным с анализом частей речи.
Итак, в результате изложенных рассуждений получаем следующую разметку на синтагмы: «Вы /, как видно /, ещё не понимаете /, что человека могли ждать друзья /, а его опоздание на целые сутки / расстраивает все планы / и может повлечь за собой / массу неудобств /. – Ах /! Так дело было в этом /? – Вот именно /.» После этого необходимо расставить полные и частичные фразовые ударения. Напомним, что частичное ударение проставляется в не очень значимых частях речи, например, в местоимениях и служебных словах. В существительных, глаголах и прилагательных проставляется полное ударение, хотя возможны исключения. Например, в слове «Ах» ставим полное (сильное) ударение, так как в нашем случае это отдельная фраза. Используя введенные в обозначения («+» - полное ударение, «-» - частичное), получаем: «Вы- /, ка-к ви+дно /, ещё- не понима+ете /, что- челове+ка могли+ жда+ть друзья+ /, а его- опозда+ние на це+лые су+тки / расстра+ивает все- пла+ны / и мо-жет повле+чь за собо-й / ма+ссу неудо+бств /. – А+х /! Та-к де+ло бы+ло в э+том /? – Во-т и+менно /.» Далее необходимо осуществить интонационную разметку синтагм. В тех местах, где стоят знаки препинания, это сделать очень просто – можно все оставить как есть либо использовать какие-либо дополнительные обозначения. В данном случае, чтобы отличить знаки препинания от интонационной разметки, будем использовать эти же знаки препинания, но взятые в круглые скобки. Кроме того, для начальных и срединных синтагм будем использовать обозначения интонации незавершенности. Тогда получим: «Вы- /(,) ка-к ви+дно /(,) ещё- не понима+ете /(,) что- челове+ка могли+ жда+ть друзья+ /(,) а его- опозда+ние на це+лые су+тки /(,-) расстра+ивает все- пла+ны /(,) и мо-жет повле+чь за собо-й /(,-) ма+ссу неудо+бств /(.) – А+х /(!) Та-к де+ло бы+ло в э+том /(?) – Во-т и+менно /(..)» На этапе паузации в качестве единицы длительности введем знак «#». Тогда удвоенный знак «##» будет обозначать вдвое более длинную паузу и т.д. Разберемся в длительности пауз. Длительность пауз зависит от следующих факторов: • тип синтагмы: начальная, срединная, конечная – после начальной и срединной синтагм пауза короче, чем после конечной; • интонационный тип синтагмы – интонации завершенности, восклицания и вопроса предполагают более длительную паузу после конечной синтагмы, чем интонация незавершенности; • положение фразы по отношению к началу и концу абзаца (фонетического периода) – в конце фонетического периода пауза будет самая длинная. Итак, получаем следующие градации длительности пауз: • «#» – паузы после синтагм с частичной незавершенностью; • «##» – паузы после синтагм с простой незавершенностью; • «###» – паузы после синтагм с простой завершенностью, восклицанием или вопросом; • «####» – пауза после синтагмы с полной завершенностью. Таким образом, получаем: «Вы- /(,)## ка-к ви+дно /(,)## ещё- не понима+ете /(,)## что- челове+ка могли+ жда+ть друзья+ /(,)## а его- опозда+ние на це+лые су+тки /(,-)# расстра+ивает все- пла+ны /(,)## и мо-жет повле+чь за собо-й /(,-)# ма+ссу неудо+бств /(.)### – А+х /(!)### Та-к де+ло бы+ло в э+том /(?)### – Во-т и+менно /(..)####» Итак, мы получили синтагматически размеченный текст. Далее вступает в силу блок пословной обработки текста. Заметим при этом, что на предыдущем этапе мы уже выполнили некоторые шаги. В частности, в данном тексте уже стоят знаки полных и частичных ударений. Здесь можно заметить безударные слова. Поэтому приступим сразу к объединению слов в фонетические слова и получим следующий текст: «Вы- /(,)## ка-к ви+дно /(,)## ещё- непонима+ете /(,)## что- челове+ка могли+ жда+ть друзья+ /(,)## аего- опозда+ние наце+лые су+тки /(,-)# расстра+ивает все- пла+ны /(,)## имо-жет повле+чь засобо-й /(,-)# ма+ссу неудо+бств /(.)### – А+х /(!)### Та-к де+ло бы+ло вэ+том /(?)### – Во-т и+менно /(..)####» В этом тексте удалены пробелы между безударными словами (предлогами и союзами) и словами, с которыми они связаны. Последний этап – фонемное транскрибирование. Используя приведенные выше правила, получаем следующий размеченный фонемный текст: «Вы- /(,)## ка-к в’и+дна /(,)## йэщ'о- н’ипан’има+ити /(,)## што- ч’илав’э+ка магл’и+ жда+т’ друз’йа+ /(,)## айиво- апазда+н’ийэ нацэ+лыйэ су+тк’и /(,-)# растра+иваит все- пла+ны /(,)## имо-жыт павле+ч’ засабо-й /(,-)# ма+ссу ниудо+пств /(.)### – А+х /(!)### Та-к де+ла бы+ла вэ+там /(?)### – Во-т и+минна /(..)####»
- 1. Фонетическое членение речи.
- 2. Звуки. Артикуляционный аспект звуков речи.
- 3. Артикуляционная характеристика звуков.
- 4. Гласные звуки. Классификация гласных звуков.
- 5. Согласные звуки. Классификация согласных звуков.
- 6. Акустический аспект звуков речи. Качественные характеристики звуков.
- 7. Функциональный аспект звуков речи (фонология). Понятие о фонеме.
- 8. Система фонем в современном русском языке.
- 9. Фонологические позиции. Сильные и слабые фонемы.
- 10. Позиционные чередования гласных фонем. Количественная и качественная редукция гласных фонем.
- 11. Позиционные чередования согласных фонем. Ассимиляция и диссимиляция по глухости/звонкости и по твердости/мягкости.
- 12. Исторические чередования фонем.
- 13. Падение редуцированных гласных фонем и последствия этого явления.
- 14. Чередования, связанные с историей носовых звуков в древнерусском языке.
- 15. Палатализация заднеязычных.
- 17. Фонетическая транскрипция. Фонематическая транскрипция
- 18. Слог. Слогораздел. Типы слогов.
- 19. Фонетическое слово. Ударение
- 20. Речевой такт. Интонация
- 21. Ударение. Интонационные конструкции
- 21. Фраза. Интонация
- 22. Понятие об орфоэпии
- 23. Основные правила русского литературного произношения.
- 24. Произношение гласных под ударением. Произношение безударных гласных.
- 25. Произношение отдельных согласных звуков.
- 26. Произношение групп согласных.
- 27. Произношение некоторых грамматических форм.
- 28. Произношение некоторых аббревиатур. Особенности произношения иноязычных слов.
- 29. Трудные случаи усвоения ударения в русском языке.
- 30. Развитие русского литературного произношения.
- 31. Грамматическое кодирование
- 32. Семантическое кодирование. Двухаргументные (временные признаки): причинность.
- 33. Семантическое кодирование. Двухаргументные (временные признаки): следствие, результат, цель.
- 34. Семантическое кодирование. Двухаргументные (временные признаки): превращение, изменение
- 35. Семантическое кодирование. Двухаргументные (временные признаки): взаимодействие, группировка, общность, объединение
- 36. Семантическое кодирование. Двухаргументные (временные признаки): разделение, влияние, условие, вхождение.
- 37. Семантическое кодирование. Двухаргументные (временные признаки): соответствие, управление, подчинение, зависимость.
- 38. Семантическое кодирование. Одноаргументные (постоянные признаки):свойство, необходимость, возможность, вероятность, есть, нет.
- 39. Семантическое кодирование. Одноаргументные (постоянные признаки): истинность, ложность.
- Семантический код. Его цели. Предназначение. Принцип построения. Возможности.
- Предназначение семантического кода. Термин «смысл».
- Предназначение семантического кода. Текст. Информация. Гипертекст в освоении информации.
- 43. Грамматический и семантический анализ при семантическом кодировании.
- 44. Русский семантический словарь сочетаемости и ассоциативный словарь при семантическом кодировании.
- Предназначение семантического кода. Системный изоморфизм.
- Предназначение семантического кода. Принцип необходимого и достаточного.
- Предназначение семантического кода. Связность классов и подклассов
- 48. Предназначение семантического кода. Принцип иерархичности/ неиерархичности.
- 49. Предназначение семантического кода. Системная метафоричность.
- 50. Ситуативный (ситуационный) семантический код.
- 51. Семантическое кодирование. Выравнивающе-толковательный код. Матрешный код.
- 52. Основные задачи и ключевые понятия речевого интерфейса.
- 53. Исторический обзор проблемы распознавания и синтеза речи.
- 54. Системы автоматического синтеза речи. Практические приложения речевого интерфейса.
- 55. Системы автоматического распознавания речи. Практические приложения речевого интерфейса.
- 56. Лингвистические основы речевого интерфейса. Использование лингвистики в реализации речевых систем.
- 57. Структура речевого сигнала. Анализ и синтез. Спектрально-временные характеристики речевого сигнала.
- 58. Информационная и модуляционная структура речевого сигнала.
- 59. Методы синтеза речевого сигнала. Обобщенные математические модели описания речевых сигналов.
- 60. Методы синтеза речевого сигнала. Геометрическая модель речевого тракта.
- 61. Методы синтеза речевого сигнала. Формантная модель.
- 62. Компиляционные методы синтеза речевого сигнала.
- 63. Методы анализа речевого сигнала.
- 64. Метод цифровой фильтрации речевого сигнала. Спектральный анализ с использованием алгоритмов бпф. Метод цифровой фильтрации
- Спектральный анализ с использованием алгоритмов бпф
- 65. Спектральный анализ на основе линейного предсказания. Формантно-параметрическое описание речевого сигнала. Спектральный анализ на основе линейного предсказания
- Формантно-параметрическое описание речевого сигнала
- 66. Метод кепстральных коэффициентов. Особенности восприятия речи. Свойства рецептивного восприятия речи человеком. Метод кепстральных коэффициентов
- 67. Свойства рецептивного восприятия речевых сигналов. Природа слуховых (фонетических) признаков речевого сигнала. Свойства рецептивного восприятия речевых сигналов
- Природа слуховых (фонетических) признаков речевого сигнала
- 68. Свойства восприятия минимальных смыслоразличительных элементов речи
- 69. Синтез речи по тексту. Структура синтезатора речи по тексту.
- Структура синтезатора речи по тексту Ключевые понятия:
- 70. Лингвистический процессор. Предварительная обработка текста. Пофразовая обработка текста.
- Предварительная обработка текста
- Пофразовая обработка текста
- 71. Пословная обработка теста. Пример работы лингвистического процессора. Пословная обработка текста
- Пример работы лингвистического процессора
- 72. Просодический процессор
- 73.Фонетический процессор. Артикуляторно-фонетический процессор. Формантный фонетический процессор.
- 74. Аллофонный фонетический процессор. Акустический процессор.
- 75. Аппроксимация геометрии речевого такта. Акустический процессор, основанный на компиляционных методах синтеза речи.
- 76. Классификация систем автоматического распознавания речи. Методы автоматического распознавания речи.
- 77. Классификация методов распознавания речи.
- 78. Метод динамического программирования.
- 79. Метод скрытых марковских моделей.
- 80. Структурно-экспертные методы распознавания речи. Экспертный подход к фонемному распознаванию речи.
- 81. Проблемы обучения в распознавании речи и методы создания эталонных слов. Метод создания многокластерных эталонов речи.
- 82.Проблема плотных упаковок. Формульное представление знаний как вариант плотных упаковок.