Адекватный компьютерный перевод научно-популярного текста

1.5 Принцип работы электронных переводчиков

Память переводов представляет собой базу данных, хранящую языковые пары, и определенный механизм поиска. Несмотря на то, что различные профессиональные среды перевода, такие как "Translators Workbench" фирмы Trados, "Transit" фирмы Star, "DejaVu" фирмы Atril, имеют, по-видимому, различную реализацию этого механизма ("по-видимому", поскольку алгоритмы не придаются огласке), общая идея становится ясной после изучения примеров. Поэтому с примеров и начнем.

Пусть в исходном тексте встречаются следующие фразы: "Температура регулируется поворотом ручки."

"Температура регулируется поворотом ручки по часовой стрелке."

"Напор воды регулируется поворотом ручки по часовой стрелке."

Если сегментация выполняется по предложениям, то каждая из приведенных фраз попадет в отдельный сегмент. Пусть первый сегмент был переведен человеком следующим образом:

"Die Temperature wird mit Knopfdrehung reguliert."

Языковая пара, состоящая из исходного и переведенного сегментов, заносится в память переводов. Когда переводчик доходит до второй фразы примера, система определяет сходство и выводит на экран следующую информацию: таблица 2.

Таблица 2

Текущий сегмент	Температура регулируется поворотом ручки ^{по часовой стрелке}
Найденный сегмент	Температура регулируется поворотом ручки
Перевод	Die Temperatur wird mit Knopfdrehung reguliert
Степень сходства	~70%

После того, как сегмент, соответствующий второй фразе примера помечается как переведенный, в памяти переводов появляется еще одна языковая пара. Тем самым, когда дело доходит по третьей фразы, система уже имеет возможность показать переводчику два похожих варианта: таблица 3.

Таблица 3

Текущий сегмент	Напор воды регулируется поворотом ручки по часовой стрелке
Найденная языковая пара 1	~~Температура~~ регулируется поворотом ручки по часовой стрелке
	Die Temperatur wird mit Knopfdrehung in Uhrzeigesinn reguliert
Степень сходства	~65%
Текущий сегмент	Напор воды регулируется поворотом ручки по часовой стрелке
Найденная языковая пара 2	~~Температура~~ регулируется поворотом ручки
	Die Temperatur wird mit Knopfdrehung reguliert
Степень сходства	~40%

Воспользовавшись, к примеру, первым из предложенных вариантов, переводчик быстро расправляется с оставшейся частью фразы. Эффективность работы памяти переводов во многом определяется тем, насколько удачно решены следующие задачи:

1. сегментация;

2. обработка специальных символов и форматирующей информации.

Очевидно, что с увеличением размера сегментов будет уменьшаться число полных совпадений (и увеличиваться число частичных), что сильно повысит ресурсоемкость процедур поиска и потребует от переводчика значительных усилий в изучение предоставленных ему в качестве вариантов перевода языковых пар. С другой стороны, уменьшение размера сегментов сделает их малопригодными для повторного использования, поскольку сильно возрастет влияние контекста на перевод. Оптимальной единицей сегментации чаще всего оказывается фрагмент предложения, ограниченный знаками препинания. Во избежание ошибочной сегментации по точкам внутри аббревиатур и других подобных случаев используют регулярные выражения и списки исключений.

Вторая проблема обусловлена тем, что в тексте кроме букв зачастую присутствуют иные символы, как то: маркеры внедренных в документ объектов, закладки, перекрестные ссылки, переключатели свойств шрифта. Все эти инородные элементы в ряде случаев могут повлиять на перевод. Например, выделенное курсивом слово может при переводе быть взято в кавычки и попасть в результирующий текст в неизменном виде. Для управления поведением анализатора в таких ситуациях во многих программных продуктах предусмотрены специальные настройки, в том числе, основанные на применении регулярных выражений.

Поиск и добавление

До тех пор, пока память переводов была линейной, сегменты неделимыми, а сравнение строгим, решение задачи поиска сводилось к введению отношения строгого лексикографического порядка над множеством сегментов на исходном языке. Иными словами, определялся оператор "меньше", на основе которого можно было осуществить обыкновенный двоичный поиск, и проверку на равенство. С введением оператора "нечеткого совпадения", который позволял оценить степень сходства для любых двух сегментов, решение проблемы поиска резко усложнилось и, без дополнительных ухищрений с различного рода индексацией, стало эквивалентно задаче полного перебора. Предложенная многоуровневая модель памяти переводов, собственно, и предоставляет некоторый механизм неявной индексации: каждое входящее в сегмент слово, по сути, идентифицирует некоторое подмножество ориентированного графа памяти переводов, состоящее из узлов, которые можно достичь, начав обход от узла, соответствующего выбранному слову.

Используя особенности выбранной структуры памяти переводов, задачу поиска сегментов, похожих на заданный, можно решить путем выполнения следующих действий (рис. 4):

1. разбить заданный сегмент на слова;

2. найти в памяти переводов все узлы, соответствующие этим словам;

3. спускаясь по графу отношений наследования, помещать в список найденных сегментов все встречаемые узлы.

Рис. 4

Резонным представляется вопрос о том, в каком порядке следует предоставлять найденные сегменты переводчику: ведь приведенная процедура поиска выберет из памяти все сегменты, пересекающиеся с заданным по крайней мере по одному слову. Каковы правила фильтрации и сортировки найденных сегментов?

Ответ на этот вопрос лежит за пределами выбранного формализма, однако в этом нет ничего страшного. Дело в том, что результат поиска представляет собой классический вариант одноуровневой памяти переводов, анализ которого может быть произведена методами, формализованными в рамках существующих сред перевода. Для обеспечения эффективности поиска целесообразно осуществлять оценку "пригодности" сегментов по мере их нахождения. Например, если некоторый сегмент полностью совпадает с эталоном, то все его потомки в графе могут быть автоматически исключены из поиска.

Теперь поговорим о задаче добавления нового сегмента в память переводов. Очевидным условием корректности процедуры добавления является обеспечение успешного поиска. Стало быть, добавляемый сегмент должен иметь в числе своих предков (не обязательно прямых) все составляющие его слова. Следуя целям оптимальности, можно заключить, что среди предков должны присутствовать также узлы графа, содержащие фрагменты данного сегмента. Иными словами, если в памяти переводов присутствуют сегменты "AB" и "CD", то сегмент "ABCD" должен стать наследником этих двух сегментов. Аналогично, если в памяти присутствует сегмент "ABCD", то добавляемый сегмент "AB" должен стать его предком. В общем случае при добавлении сегмента в граф памяти переводов могут существовать альтернативные варианты наследования. В такой ситуации схема добавления заметно усложнится. В любом случае, проблема построения оптимальной иерархии классов решается в рамках объектно-ориентированного подхода, поэтому мы не будем заострять здесь на ней внимание.

Долгое время системы машинного перевода и памяти переводов представляли два конкурирующих направления и никогда не рассматривались вместе кроме как в противопоставлении. На сегодняшний день взгляды меняются, и хотя фирмы не придают своим ноу-хау широкой огласки, заметна тенденция к совместному использованию в некоторых системах обеих технологий. Предлагаемая модель демонстрирует один из возможных вариантов такой интеграции. Более того, она представляет собой попытку показать, что под машинный перевод и память переводов можно подвести общую основу, и создать такую систему профессионального перевода, в которой оба механизма действуют как единое целое.

ГЛАВА 2. Ошибки, возникающие в процессе компьютерного перевода текстов научно-технического характера. Искажения, неточности, неясности

При компьютерном возникает ряд типичных ошибок. Интересен тот факт, что текст получаемый при помощи разных электронных переводчиков так же различается.

2.1 Типология ошибок

Классификация ошибок, появляющихся как результат некорректного компьютерного перевода и передачи исходного текста, весьма проста- специфика и степень воздействия ошибки на адресата перевода.

Искажение существенно дезинформирует адресата относительно предметно-логического и прагматического значения в исходном тексте.

Неточности так же как и искажения, дезинформируют адресата перевода относительно предмета высказывания. Однако степень дезинформации менее существенна, чем в случае искажения.

При оценке ущерба для двуязычной коммуникации в результате неверной передачи исходного содержания следует, разумеется, иметь ввиду и жанр переводимого текста, и прежде всего подразделение текстов на те, в которых изложены факты, и те что построены на артефактах (художественном вымысле). Порой то, что в первом случае было искажением, во втором можно отнести к неточности.

Неясность отличается от искажения и неточности тем, что оказывает на адресата не столько дезинформирующее, сколько дезориентирующее воздействие: если в первых двух случаях мысль адресата, можно условно сказать, направляется не в ту сторону, то в случае неясности она порой просто как ты топчется на месте, не зная, какое направление избрать, поскольку содержание изложено переводчиком таким образом, что непонятно «куда мысли идти».

Как показывает практика, причиной недочетов в части передачи исходного содержания может быть не только непонимание или недостаточное понимание этого текста программой , но и просто неудачный подбор переводческого соответствия.

2.2 Сравнительный анализ

В качестве примера хотелось бы привести перевод статьи из журнала «Deutschland» сделанной при помощи переводчика PROMT 7 Giant.

Исходный текст:

Peking

Zentrale des chinesischen Staatsvernsehens und TV-Kulturzentrum.

Es ist der Werk, das an die Grenzen der Architektur geht und die naturlichen Gesetze der Schwerkraft offensichtlich ignoriert: das neue Gebaude des chinesischen Staatsvernsehens CCTV. In Pekings Geschaftsviertel ragen die beiden L-formigen Turme schrag in die Hohe- eine unglaubliche Statik. Die Turme scheinen fast umzufallen, am Ende werden sie uber 200 Meter hoch sein. Verantwortlich fur dieses aufregende Bauprojekt, eines der gro?ten weltweit, ist der deutsche Architekt Ole Scheeren. Der 36-Jarige ist Partner im Office for Metropolitan Architekture (OMA) des niederlandischen Stararchitekten Rem Koolhaas Ole Scheeren kummert sich um das Asiengeschaft des Architektenburos und leitet in Peking seit funf Jahren ein Team von 60 Architekten und 120 Ingenieuren. Im CCTV-Neubau aus Glas und Stahl werden spater einmal 10000 Menschen arbeiten, seine Nutzflache betragt gigantische 540000 Quadratmeter. Im Jahr 2009 soll die neue Fernsehzentrale fertig sein. Im angrenzenden TV-Kulturzentrum(TVCC) werden bereits wahrend der olympischen Spiele 2008 Fernsehsender aus aller Welt untergebracht. Fur Ole Scheeren gibt es derzeit kein vergleichbares Bauobjekt: „Das statische System des CCTV ware wahrscheinlich vor funf bis zehn Jahren nicht zu realisieren gewesen, weil die Computer-Software nicht weit genug entwickelt waren.

Компьютерный вариант перевода:

Центр китайского Staatsvernsehens и телевизионный культурный центр.

Это произведение{завод}, которое идет у границ архитектуры и игнорирует естественные законы силы тяжести, очевидно: новое здание китайского Staatsvernsehens CCTV. В торговом квартале Пекина обе башни в форме л возвышаются косо на высоту невероятную статику. Башни почти, кажется, падают, в конце они будут высотой 200 м. Ответственно для этого волнующего строительного проекта, одного самый большой во всем мире, является немецкий архитектор Оле Шерен. 36-Jдrige - это партнер в Office Metropolitan (БАБУШКА) нидерландского звездного архитектора Rem Koolhaas Ole Scheeren заботится о деле Азии офиса архитектора и руководит{провожает} в Пекине уже 5 лет группа{команда} 60 архитекторов и 120 инженеров. В новостройке CCTV из стакана{стекла} и стали 10 000 людей будут работать позже однажды, его{ее} полезная площадь составляет гигантские 540 000 кв.м. В 2009 году должен быть готов новый телевизионный центр. В смежном телевизионном культурном центре (TVCC) 2008 телекомпаний размещаются уже во время олимпийских игр{геймов} со всего света. Для Ole Scheeren не имеется теперь{тогда} никакого сравнимого строительного объекта: „ Статическую систему CCTV не нужно было бы реализовать, наверное, от 5 до 10 лет назад, так как компьютерное программное обеспечение не были достаточно недалеко разработаны.

Содержание