filologi_1_kurs / языкознание / рождственский

Соотношение устной и письменной речи

Проблемой прикладного языкознания в области семиотики является исследование, описание и представление материалов устной и письменной речи таким образом, чтобы стало возможно их взаимное автоматическое преобразование. Простейшей задачей, по-видимому, является автоматическое преобразование письменной речи в устную, или автоматический синтез устной речи. Для автоматического синтеза устной речи необходимо данные анализа звучащей речи представить как определенную совокупность последовательно развертывающихся акустических сигналов и трансформировать эти сигналы с помощью электронной аппаратуры в звучащую речь, воспринимаемую и распознаваемую человеком. Результаты этих лингвосемиотических исследований уже воплощены для некоторых языков, например для русского и английского. Полученная на электронно-акустических синтезаторах речь воспринимается и распознается человеком [5].

Процесс автоматического синтеза речи совершенствуется. Необходимость в этом объясняется двумя причинами: во-первых, известным несовершенством программ синтеза звука и синтезирующих аппаратов, во-вторых, отсутствием индивидуального стандартного стиля автоматического произношения.

Другой проблемой является автоматическая запись звучащей речи, перевод ее в письменную форму. Чтобы как бы заменить работу стенографа, аппарат должен произвести автоматический анализ речи. Трудности, возникающие при этом, достаточно велики.

1. Звучащая речь всегда имеет индивидуальные характеристики лица, которое производит эту речь.

2. На характер акустических сигналов влияет темп произношения и связанная с ним степень полноты артикуляции.

3. При записи речи необходимо распознавание отдельных звуков, но в реальной речи звуки включены в общий динамический и интонационный контур речи и, будучи частью этого целого, изменяются в своих характеристиках в зависимости от целого.

4. Для распознавания речи человеком имеют значение не абсолютные частотные и динамические характеристики, а соотносительные; это значит, что при автоматическом анализе и распознавании речи необходимо иметь соответствующие программы, как бы сравнивающие произношение разных лиц и определяющие соотносительно характер речи и состав ее единиц.

5. Реальное узнавание речи всегда неполно, возмещается догадкой слушающего, знающего характер говорящего и его намерения (процесс слушания и распознавания речи включает в себя творческий компонент).

6. Работа стенографа строится на знании орфографии данного языка, однако между реальным произношением, образцово-орфоэпическим и представлением речи в орфографической записи стоит распознающая и речепроизводящая способность человека. В принципе, автоматы сейчас способны: 1) узнавать человека по произношению; 2) понимать голосовые команды одного лица или группы лиц, обладающих правом подавать команды.

Все эти проблемы, естественно, не могут быть решены сразу, - необходимо последовательное приближение к решению данной задачи. Например, отграничение индивидуального произношения от образцово-орфоэпического представления речи, затем отграничение искажений, связанных с различием в темпе речи, и т.п. Как показывают исследования, автоматическое распознавание звучащей речи требует последовательного движения от единиц более высокого порядка, например предложения и фразы, к единицам более низкого порядка, например фонетическим словам и слогам.

Еще одной проблемой является соотношение орфографии с орфоэпией. Современные эксперименты по автоматическому синтезу звучащей речи имеют дело с особым образом записанным материалом письменной речи, т.е. с отдельными словами и фразами. Для того, чтобы синтезировать звучание слов и фраз, необходимо иметь систему транскрипции, позволяющую представить орфографический образ любого слова или высказывания в форме программы синтеза звуков. Каждый язык имеет свою орфографическую традицию, и следовательно, свой тип соотнесения орфографии с орфоэпией. Так, не одно и то же транскрибировать для синтеза речи звучание китайских иероглифов и правильное чтение текстов на немецком или индонезийском языке.

Особой проблемой является перевод письменной речи в электрические импульсы, или проблема автоматического распознавания письменной речи. Автоматическое распознавание письменной речи предполагает создание автоматического буквочитающего устройства. Его иногда называют перцептроном. Это устройство действует на основе использования принципа сканирующего луча. Пробегая по квадрату, в который вписываются буквы, луч отмечает светлые и темные места, которые возникают там, где луч наталкивается на рисунок буквы. Возникает развернутое в линию изображение буквы, данное как последовательность светлых и темных мест, которое представляет собой своеобразный код буквы. Этот код сличается с аналогичными кодами букв, находящимися в памяти перцептрона. Если есть совпадение кодов, то буква опознана и может быть записана в память ЭВМ как часть слова.

Автоматическое распознавание письменной речи и запись этой речи в память машины сулят огромные выгоды. Дело в том, что для того, чтобы ввести в память ЭВМ слова или тексты, необходим пока большой ручной труд оператора, который перепечатывает и корректирует текст. Это работа нетворческая, медленная.

При использовании ЭВМ для решения математических и логических задач объем информации, вводимой в память машины, сравнительно невелик. Само лицо, заинтересованное в решении задачи, вводит обычно такую информацию. Если же ЭВМ используется как средство записи текстов с целью последующих операций с ними, то ввод текстов в машину означает, по сути дела, полное воспроизведение текста, что сильно увеличивает затраты и замедляет процесс.

Создание устройств автоматического распознавания и ввода текстов позволило бы эффективно использовать мощности ЭВМ в целях преобразования, хранения и передачи языковой информации. Однако, как и при распознавании устной речи, сложности в материале самой письменной речи. Если отвлечься от собственно рукописных текстов и обратиться только к машинописи и печатной продукции, возникает принципиально та же трудность, что и при автоматическом распознавании речи. Существует большое, а точнее сказать - неучтенно большое количество машинописных и печатных шрифтов. Одна и та же графема записывается множеством различных по начертанию букв. Так, буква "а" поясняется знаками А, а и др., каждый из них может оказаться графически более близким к другой букве, чем к "а": например, А ближе к Л, чем к О, а ближе к О, чем к А, и т.д. Все это создает трудности распознавания и идентификации графем, так как приходится иметь много программ идентификации. При этом увеличение числа программ сказывается на быстроте и надежности распознавания речи.

Содержание