logo search
для диплома

Энтропия и вероятностный метод анализа текстов при переводах с одного языка на другой

Перевод - это деятельность, заключающаяся в передаче содержания текста на одном языке средствами другого языка. Теоретическим осмыслением и оптимизацией занимается дисциплина, называемая наукой о переводе и включающая в себя несколько направлений, среди которых выделяются теория перевода, анализ перевода, методика обучения переводу. Как и многие другие разделы этой дисциплины - прикладной лингвистики, перевод - междисциплинарен, т.е. он связан не только с наукой о языке, но и с другими когнитивными науками. На основании анализа оригиналов текстов медицинского профиля (немецкий и русский языки), предназначенных для перевода студентами медицинского факультета, был использован способ, основанный на теории информации, а именно, на вероятностном распределении и параметрах энтропии для подтверждения гипотезы об истинности передачи смысла сообщения. Соотношение энтропий языков оригинала и перевода использовались в качестве поправочного коэффициента при сравнении текстов в символах. Анализ немецко-русских и русско-немецких текстов показал, что некоторые переводы оказались несколько “короче” оригиналов, что свидетельствует о наличии в переводах сокращений, упрощений или даже пропусков. Перевод с одного языка на другой - это процесс замены (перекодирования) текстового материала на одном языке, эквивалентным текстовым материалом на другом языке. В отличии от других видов переводов, выделяемых Якобсоном Р.О. 1985 г. используется та же самая схема, в случае межъязыкового перевода применяется семиотическая система того типа - только другой естественный язык.

Так как языки отличаются друг от друга и их информационные потери неизбежны, их необходимо каким-то образом компенсировать. “Хороший” перевод всегда несколько длиннее исходного оригинального текста, т.к. переводчик должен эксплицировать понятия, отсутствующие в языке перевода (Nida E.A., Taber C.R., 1974, c.163). Однако, единого представления о том, что такое “хороший” перевод не существует, причем требования могут меняться в зависимости от установленных языковых норм, стилистических правил, а также типа переводимого текста (Chesterman, 1997). В связи с этим в ходе анализа переводов оригинальных текстов и их соответствия при передаче смысла сообщения была использована теория вероятностей, а именно измерение длины текстов в символах.

В разных языках для передачи одинаковых по смыслу сообщений используются слова, длина которых может быть как близкой, так и различной. Эти слова могут употребляться в различных грамматических формах, для чего используются морфемы или служебные слова, длины которых также различны. Кроме того, если в языке имеются артикли (немецкий язык), то количество словоупотреблений в сообщении на этом языке будет, как правило, больше, чем в переводе этого сообщения на безартиклеваемый язык. Таким образом, для передачи одной и той же информации в разных языках могут порождаться сообщения разной длины. Для проведения исследования были использованы немецко-русские и русско-немецкие тексты медицинской специальности, прессы и интервью. Объем корпуса составил 34.134 символа на каждом из языков. Вероятность встречи символов выводилась по формуле:

ni

Pi = ,

N

где n - количество каждой буквы, а N - количество всех букв.

Сравнение длин исходных текстов и их переводов в символах показало, что соотношение длин в значительной степени определяется парой языков. Полученные статистические данные по параллельным текстам не подтверждают гипотезу о том, что “хороший” перевод всегда несколько длиннее исходного текста (Nida E.A., Taber C.R., 1974). Для решения этого вопроса был применен кибернетический подход, отличающийся от традиционных методов по количеству альтернатив при выборе очередности сообщения.

В качестве меры количества информации была использована энтропия, степень свободы выбора на каждом шаге порождения сообщения. Таким образом, энтропия тесно связана с вероятностью. Для сообщения с алфавитом из n - букв энтропия (H) вычисляется по формуле:

H= - [p1 log2 (p1) + p2 log2 (p2) + ... + pn log2 (pn)],

где p1, p2 ... pn - вероятности появления различных символов в сообщении (Oakes, 1998, с. 58-60).

Для различных языков понятия энтропии различаются, т.к. даже, если используется один и тот же алфавит (хотя полное совпадение алфавитов наблюдается довольно редко, например, почти во всех языках, использующих латиницу, либо есть дополнительные буквы, либо отсутствуют какие-либо из стандартных букв), частота букв и иных знаков (например, знаков препинания), а также их сочетаемость, различается. Из проведенного исследования вытекает, что русский язык более “экономен”, т.е. обладает большей энтропией, приблизительно на 5%. Поэтому, при переводе с немецкого языка на русский - идеальный, точно и полно передающий смысл оригинала русский текст, может быть на 5% короче оригинала, тогда как немецкий перевод русского текста принципиально не может быть короче оригинала из-за разности абсолютных энтропий.

На основании проведенного исследования можно утверждать, что на достаточно большом пространстве слов средняя длина русского слова должна быть немного короче немецкого, чтобы энтропии находились в положенной им пропорции.

Самойлова С.П., Логунова Ю.П.

РУДН