logo search
Шпора по ЕЯИС, 2ой семестр (Головня) [8282 вопросов]

Предварительная обработка текста

Цель первого блока (рис. 4.3) состоит в предварительной обработке текста, а именно, в его нормализации, т.е. приведении текста к каноническому виду. Блок включает в себя следующие последовательно выполняемые операции: 1. Очистка текста от служебных слов, не имеющих отношения к речи. Это, например, знак переноса каретки, табличные знаки и т.п. Указанные знаки используются в тексте, набранном на компьютере, для того чтобы он был виден на экране в более удобном для пользователе виде. Данная операция приводит такой «замусоренный» текст в нормальный орфографический текст. Для корректной работы данной операции используется список недопустимых символов. 2. Преобразование всевозможных сокращений и аббревиатур в линейный текст. Например, сокращение «и т. д.» преобразуется в «и так далее», аббревиатуры «СНГ» - в «эс эн гэ», «США» - в «сэ ша а», «ФРГ» - в «эф эр гэ». Кроме того, в случае необходимости аббревиатуры могут быть, полностью расшифрованы. Например, аббревиатура «СНГ» может быть преобразована в «Союз Независимых Государств» и т.д. Если такое преобразование не осуществить, то синтезатор речи прочтет их в том виде, в котором они написаны в тексте. Например, как [снг], [сша] и [фрг]. 3. Преобразование «число – числительное», т.е. преобразование чисел в их орфографическое представление. Например, число 28 453 преобразуется в имя числительное «двадцать восемь тысяч четыреста пятьдесят три». Следует отметить, что чтобы синтезировать произношение любого числа, требуется меньше сотни базовых слов, таких как «тысяча», «тысяч», «сто», «ста» и т.д. (подробнее этот вопрос рассматривается в области лингвистики). 4. Преобразование формул (математических, физических, химических и т.д.) в их орфографическое представление. Это преобразование аналогично преобразованию «число – числительное», но с той лишь разницей, что здесь требуется дополнительная информация о том, как читаются те или иные формулы. Очевидно, что это зависит от конкретной предметной области. Например, 2х – «два в степени икс»; H2O – «аш два о» и т.п. Таким образом работает первый блок лингвистического процессора. Он, конечно, не представляет собой большой научной трудности воплощения, но без него, естественно, синтезатор будет работать плохо. Поэтому этому блоку уделяется достаточно большое внимание.

Рисунок 4.3. Схема работы блока предварительной обработки текста