logo
для диплома

Статистические методы, используемые для анализа переводов текстов

Различные направления лингвистических исследований указывают на то, что язык чувствителен к принципам экономии и приспособлен для упрощения и упорядочения языковых вычислений. В некоторых случаях было показано, что принятие “минимального” набора допущений, может улучшить эмпирическую адекватность анализа (Катфорд. Дж, 2004).

Типичным примером является теория копирования следов и то объяснение, которое оно дает эффектам реконструкции, т.е. когда корректный результат достигается путем простого отслеживания “передвижения” местоимения к его элементарным вычислительным составляющим: (Н. Хомский, 2005)

Was fûr ein Bild von sich selbst bevorzugt John?

Which picture of himself does John prefer?

По-видимому, дело в том, что в подобных конфигурациях с перевернутой вперед сложной составляющей ментальное исчисление принципа связывания осуществляется так, как если бы эта составляющая оставалась в позиции ее следа и не передвигалась вообще. На самом деле решение находится сразу, если возвратиться к основным ингредиентам операции передвижения. Передвижение составляющей включает в себя копирование составляющей в более высокую позицию и последующее удаление из начальной позиции.

Разные языки используют по-разному механизмы передвижения ядерных элементов: некоторые, как английский, вообще никогда не поднимают полнозначный глагол из глагольной группы VP, другие, как итальянский, в большинстве случаев поднимают как финитные, так и нефинитные формы глагола к более высоко расположенным функциональным вершинам, а языки, в которых глагол занимает вторую позицию, систематически пользуются возможностью передвижения глагола к С и т.д. Модели в разных конструкциях и языках многочисленны и разнообразны, однако их можно анализировать при помощи статистического метода, основанного на анализе частоты встречаемости цепочек слов различной длины и их вхождения друг в друга.

При исследовании различных текстов, предназначенных для перевода, внутренняя структура которых на всех языках остается неизменной, были использованы универсальные законы Ципфа.

“Ранг-частота” - основывается на измерении количества вхождений каждого слова в текст, а также при выделении только одного значения из каждой группы, имеющей одинаковую частоту, далее расположить частоты по мере их убывания и пронумеровать (порядковый номер частоты называется рангом частоты), тогда наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними - 2 и т.д.

Вероятность встретить произвольно выбранное слово будет равна отношению количества вхождений этого слова к общему числу слов в тексте. То есть, Вероятность = Количество вхождений слова /число слов.

Ципф обнаружил следующую закономерность:

Произведение вероятности обнаружения слова в тексте на ранг частоты -константа (С).

С = количество вхождений слова х на ранг частоты /число слов.

Эта функция типа y = k/x и ее график - равносторонняя гипербола.

Следовательно по первому закону Ципфа, “Ранг-частота”, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово с высокой долей вероятности, оказывается на уровне 50.

Значение константы С в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для немецких текстов (функциональный стиль - медицина) константа Ципфа равна приблизительно 0,1.

Второй закон Ципфа “Количество-частота”, базирующийся на положении о том, что частота и количество слов, входящих в текст с этой частотой, связаны между собой.

В нашем исследовании законы Ципфа были использованы для извлечения из текста слов, отражающих его смысл (ключевые слова). Исследование показало, что слова, которые встречаются слишком часто, в основном, оказываются предлогами, местоимениями, артиклями и т.п. Редко встречающиеся слова в большинстве случаев не имеют решающего смыслового значения. Очень многое зависит от диапазона значимых слов, т.е. в состав ключевых слов могут входить вспомогательные слова - широкий диапазон, если установить узкий диапазон - то смысловые термины теряются.

Выделение наиболее значимых слов обеспечивается за счет предварительного исключения из исследуемого текста некоторых слов, которые априори не могут являться значимыми, т.е. являются “шумом”; это артикли, предлоги и некоторые союзы.

Таким образом, использование статистического алгоритма, основанного на вероятностных распределениях, позволяет обобщить и составить “правила” перевода, применимые к анализируемым текстам и, возможно, к “языку в целом” - или, более точно, ко всем текстам в пределах одной разновидности языка (одного и того же диалекта, функционального стиля и т.д.).

Соловьева Э.Б.

Башкирский государственный университет

Сибайский филиал