Чему удовлетворяет качество компьютерного перевода выполнить модификацию документа
Переводомназывается процесс и результат создания на основе исходного текста на одном языке равноценного ему текста на другом языке. При этом переведенный текст должен выступать полноправной заменой исходного текста (оригинала).
Эквивалентность нового текста по отношению к оригиналу обеспечивается выполнением трех основных требований:
- текст перевода должен в возможно более полном объеме передавать содержание оригинала. Недопустимо произвольно опускать или добавлять информацию;
- текст перевода должен соответствовать нормам языка перевода, так как их нарушение, по меньшей мере, создает помехи для восприятия информации, а иногда ведет и к ее искажению;
- текст перевода должен быть примерно сопоставим с оригиналом по своему объему. Это важно для сохранения стиля оригинала с точки зрения лаконичности или развернутости выражения.
Перевод — сложный творческий процесс, требующий от переводчика не только соответствующей лингвистической подготовки, но и хороших знаний тех областей, к которым переводимые тексты относятся, так как переводится смысл высказывания, а не точное значение каждого слова.
Процесс перевода специализированного текста отличается от перевода художественного. В первом случае переводчик должен владеть терминологией и иметь представление о принятых за рубежом стандартах обозначений тех или иных понятий.
Таким образом, перевод текстов с одного языка на другой не может выполняться формально, дословно и требует творческого вмешательства "живого" переводчика.
Однако некоторые функции перевода можно переложить "на плечи" компьютера. Развитие кибернетики сделало возможным машинный перевод, т.е. перевод, строящийся на использовании машиной определенных и постоянных для данного вида текста соответствий между словами и грамматическими явлениями разных языков.
В целом можно следующим образом описать работу машины-переводчика: она прочитывает очередную фразу, формулирует для себя ее смысл и передает ее на другом языке, пытаясь сохранить лексические и структурные особенности исходного текста. При этом задействуются данные из той области знания, к которой принадлежит текст. Также во время перевода используется опыт перевода предыдущих частей этого текста. Для решения столь сложной задачи используется лингвистическое обеспечение (словари, данные о грамматике), математико-алгоритмическое обеспечение (формальные теоретические модели представления данных и алгоритмы переработки данных), программное обеспечение (реализующее вышеозначенные алгоритмы), информационное обеспечение (базовые сведения о предметной области перевода) и логическое обеспечение (правила логического вывода, используемые при анализе и синтезе текста для работы со знаниями из предметной области). В результате мы имеем набор программ, облегчающих труд переводчика, которые условно можно подразделить на две основные группы: электронные словари(electronic dictionary) и системы машинного перевода(machine translation system).Обе эти группы успешно работают и online, т.е. в Internet.
Не все виды текстов доступны для машинного перевода. Наряду с недостатками, системы компьютерного перевода текстов обладают рядом несомненных достоинств, благодаря которым компьютерные переводчики продолжают пользоваться спросом на рынке программных продуктов. К преимуществам машинного перевода можно отнести следующие:
Итак, признавая безусловные преимущества компьютерного перевода, мы понимаем сложность решаемой задачи. Поэтому советуем не ждать от компьютерного перевода безусловного качества и применять его с разумными целями.
Машинный перевод противопоставляется переводу, сделанному человеком без использования информационных технологий – «ручному» переводу.
Первые алгоритмы машинного перевода использовали перекодирование текста исходного языка ( ИЯ ) на текст языка перевода ( ПЯ ). В специальной литературе преобразование исходного текста в конечный стало называться трансфер [1].
В 1947 г. в США, после появления первых ЭВМ, была высказана идея использовать их для перевода. В 1954 г. прошла первая демонстрация возможностей машинного перевода. Несмотря на несовершенство использовавшейся системы (около 250 слов в словаре, 6 правил грамматики), эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и в СССР [2].
Формы организации взаимодействия человека и ЭВМ при машинном переводе
1. С постредактированием : исходный текст перерабатывается машиной, а человек-редактор исправляет результат. Автоматический перевод с постредактированием: включает работу с «грубым» переводом предварительно нередактированного текста, сделанным машиной, с целью привести его в соответствие с нормами языка перевода;
2. С предредактированием : человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
Преобразование текста перед его вводом в систему перевода осуществляется таким образом, чтобы отредактированный текст на лексико-семантическом и грамматическом уровнях приближался к языку перевода или к конструкциям языка-источника, правила преобразования которых формализованы и известны используемой системе;
3. С интерредактированием : человек вмешивается в работу системы перевода, разрешая трудные случаи. Подразумевает взаимодействие человека и машины в процессе самого перевода; человек при этом разрешает трудные случаи «онлайн» (например, при переводе лексически неоднозначных единиц определяет, какую именно единицу следует употребить в каждом случае).
Смешанные системы (например, одновременно с пред- и постредактированием) [2, 3].
Автоматизированный перевод
Вместо « машинный » иногда употребляется слово « автоматический », что не влияет на смысл. Однако термин « автоматизированный перевод » имеет совсем другое значение — при нём программа просто помогает человеку переводить тексты.
Автоматизированный перевод предполагает такие формы взаимодействия:
1. Частично автоматизированный перевод : например, использование переводчиком-человеком компьютерных словарей.
2. Системы с разделением труда : компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.
В англоязычной терминологии также различаются термины machine translation , MT (полностью автоматический перевод) и machine-aided или machine-assisted translation ( MAT ) (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T .
Существуют два принципиально разных подхода к построению алгоритмов машинного перевода: основанный на правилах ( rule-based ) и статистический , или основанный на статистике ( statistical (phrase-based) ). Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ в России, SYSTRAN во Франции, Linguatec в Германии и др.). Ко второму типу относится популярные переводные сервисы от Яндекс и Google [2].
Качество перевода
Современные компьютерные программы перевода достаточно совершенны, но они до сих пор не могут разрешить самую сложную задачу процесса перевода: выбор контекстуально-необходимого варианта, который в каждом тексте обусловлен многими причинами. В результате начальную эйфорию сменили более уравновешенные взгляды на возможности машинного перевода. В настоящее время результат этого вида перевода может быть использован как черновой вариант будущего текста, который будет редактировать переводчик , а также как средство, чтобы в крайней ситуации отсутствия переводчика получить общее представление о теме и содержании текста [1].
Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод.
Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее, для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.
Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.
Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных шуток [2].
Ошибки обусловлены тем, что компьютер не может думать образами и не имеет возможности оперировать реалиями разных культур и эпох так, как это способен делать человеческих мозг [4].
Лексические анализы переведенных текстов показали, что по большей части электронные переводчики адекватно переводят простые части речи, но допускают ошибки в переводе падежей, принадлежности прилагательных, речевых оборотов, построения предложения.
Недостатком некоторых переводчиков является неточность перевода слов, имеющих несколько значений. Для более адекватного перевода в перспективе можно предложить более глубокий эвристический анализ грамматического построения предложения, с улучшением качества перевода различных частей речи и их грамматических характеристик, а так же исключить конфликт словарей при переводе специализированных текстов.
Грамматический анализ текстов показывает, что электронный переводчик справляется с переводом слов во множественном и единственном числе, но имеется определенная трудность в переводе падежей и постановки глаголов в нужное число. Это объясняется различной интерпретацией падежей в русском и английском языках: в русском – через окончание, в английском – через предлоги [5].
Наряду с установленными правилами построения предложения в каждом языке существуют и свои неписаные законы, которые иногда называются красотами языка. Например, предложение на английском языке «This is my book» дословно переводится «Это есть моя книга», и формально это будет правильным, но по-русски так не говорят. В данном случае можно сказать, что предложение «написано так, будто его составил иностранец». Конечно, приведенный пример является простейшим, и возможность исключения слова «is» очень просто отражается в программе машинного перевода. Но на практике получившийся перевод похож на текст, написанный иностранцем.
Текст также может содержать слова, которые нужно понимать в контексте образа жизни людей в конкретной стране. Например, под словом «демократ» в США подразумеваются политики, выступающие за большее вмешательство государства в экономику, а в России те, кто выступает за большую свободу рынка. Это разные понятия [6].
В настоящее время сфера использования машинного перевода сводится к промышленному переводу. Он может помочь в рутинной переводческой работе, когда быстрота выполнения перевода важнее его качества. Например, он может оказаться кстати для специалиста, не владеющего тем или иным иностранным языком, на котором ему нужно прочитать интересующий его текст. Хотя машинный перевод, как правило, оказывается полным ошибок и неувязок, человек вполне может получить общее представление о содержании текста, что поможет ему решить, стоит ли заказывать более качественный перевод или попытаться отредактировать полученный. Таким образом, машинный перевод позволяет получить то, что И. С. Алексеева условно назвала « сигнальным переводом » [1].
С 1976 г. машинный перевод используется для перевода прогнозов погоды с английского языка на французский в Канаде. Система работает со скоростью 1000 слов в минуту. Каждый день машины переводят до 30000 слов, работая при этом всего полчаса в день. Успех программы объясняется тем, что в текстах метеорологических сводок используется ограниченная по тематике лексика, а также стандартные синтаксические конструкции [1].
Таким образом, результаты машинного перевода почти всегда требуют редактирования. А то, насколько адекватными можно считать результаты перевода на компьютере, определяется не только качеством системы машинного перевода, но и качеством последующего редактирования [6].
В настоящее время компьютеры занимают все более значительное место не только среди программистов и инженеров, но и в среде самых разнообразных пользователей включая лингвистов, переводчиков и военных специалистов нуждающихся в оперативном переводе иноязычной информации. В этой связи, электронные словари и программы, осуществляющие машинный перевод, являются очень удобным подручным средством в целях экономии времени и оптимизации процесса понимания иноязычной информации. Кроме того, в настоящее время имеются программы–переводчики, которые могут производить более или менее адекватный перевод иноязычных текстов и могут являться подспорьем в работе военных специалистов различных профилей. [5]
Программный перевод - это широкое и не совсем точное понятие, охватывающее широкий спектр простых и сложных инструментов. Они могут включать:
Программы для проверки правописания, которые могут быть встроены в текстовые редакторы или дополнительные программы;
Программы для проверки грамматики, которые также встраиваются в текстовые редакторы или дополнительные программы;
Программы для управления терминологией, которые позволяют переводчикам управлять своей собственной терминологической базой в электронной форме. Это может быть и простая таблица, созданная в текстовом редакторе, и электронная таблица, и база данных, созданная в программе FileMaker. Для более трудоемких (и более дорогих) решений существует специальное программное обеспечение, например, LogiTerm, MultiTerm, Termex, TermStar и т. п.[9]
Словари на компакт-дисках, одноязычные или многоязычные;
Терминологические базы данных, хранимые на компакт-дисках или подключаемые по Интернету, например The Open Terminology Forum или TERMIUM и многие- многие другие.
Наличие компьютерных программ для перевода, с одной стороны, облегчает работу переводчика, так как не надо выискивать в словаре незнакомые слова, а с другой стороны, этот перевод нельзя считать окончательным, так как при переводе компьютерные программы допускают много ошибок. Ведь даже профессиональный переводчик при переводе обращается не к одному словарю для подбора нужного эквивалента.
В поисках варианта перевода переводчик вновь и вновь обращается к единицам ИЯ в оригинале, ищет в словаре их значения и одновременно пробует, нельзя ли использовать для их перевода один из вариантов, предлагаемый в двуязычном словаре. Иногда переводчик обнаруживает, что имеющийся в словаре перевод можно непосредственно использовать для перевода данного текста, и задача сводится к правильному выбору словарного соответствия. Однако чаще переводчик не находит в словаре такого варианта, который удовлетворяет условиям конкретного контекста. В этом случае переводчик отыскивает нужную ему единицу ПЯ, сопоставляя словарные варианты, определяя общий смысл переводимого слова и применяя его к условиям контекста.
Для подтверждения вышесказанного, рассмотрим перевод технического текста из книги «Class Notes for Cryptologic Mathematics» (FYS 100) Тима Мак Девитта и ФрэнкаАрнольда (2012) [13], выполненного с помощью программы Promt, и сделаем выводы о том, какие ошибки чаще всего допускаются при переводе.
What is Cryptology?
Classically, cryptology was used to send and receive secret messages and its users were often military leaders or diplomats. For Admiral Alice to send General Bob a secret message, she would have to encrypt or encipher her message using a method that she and Bob had previously agreed upon. When Bob receives the message, he has to decrypt or decipher her message to read it. Often, the method of encryption would rely on a key - some special number(s) or word(s) that only Alice and Bob know.
Prior to the computer age, encryption methods were relatively simple, not explicitly mathematical, and often not very secure. Messages were relatively short and there was very little systematic research certifying the security of cryptologic methods. Today, however, messages can be very long. As of this writing (2010),
a typical JPEG file from a digital camera is over 1 MB, which is roughly equivalent to a text file of a million characters. Contemporary encryption methods tend to use very sophisticated mathematics and there is a great deal of systematic research. The US Department of Commerce certifies certain algorithms so that users can be confident that their communications are secure, and these algorithms can be very complicated. In addition to the transmission and reception of secret messages, modern cryptology also involves less well known operations such as key exchange, digital signatures, random number generation, hashing, etc. but this book focuses, for the most part, on mathematical versions of historical methods. These methods require what is probably unfamiliar mathematics and, although they are no longer useful, they evolved into today’s methods so it is still useful to be familiar with them. The only exception is our discussion of public key systems, which currently enjoy widespread use.
Another important difference between classical and modern cryptography is frequency of use. In the past, the average individual had no practical reason to encrypt messages, but today we all use cryptographic algorithms without even knowing it when we use our cell phones or email or make online purchases.
ПЕРЕВОД ПРОГРАММЫ PROMT
Что такое Криптология?
операции, такие как ключевой генерация случайных чисел, хеширование, и т.д. но эта книга фокусы, по большей части, на математических версиях исторических методов. Эти методы требуют что является, вероятно, незнакомой математикой и, несмотря на то, что они больше не полезны, они развились в сегодняшний методы, таким образом, все ещеполезно быть знакомым с ними. Единственное исключение - нашеобсуждение открытого ключа системы, которые в настоящее времяобладают широким использованием. Другое важное различие междуклассической и современной криптографией – частота использования. В
ОТРЕДАКТИРОВАННЫЙ ПЕРЕВОД
Что такое криптология?
АНАЛИЗ ТЕКСТА, ПЕРЕВЕДЕННОГО С ПОМОЩЬЮ ПРОГРАММЫ PROMT
При работе с данным программным продуктом были обнаружены следующие погрешности при переводе текста. Лексический анализ текста показал, что PROMT по большей степени даёт адекватный перевод простых частей речи, но допускает ошибки в построении предложений, переводе падежей прилагательных, речевых оборотах.
Недостатком переводчика PROMTявляется неточность перевода слов, имеющих несколько значений. Для более адекватного перевода в дальнейшем можно предложить более глубокий анализ грамматического построения предложения, с улучшением качества перевода различных частей речи и их грамматических характеристик, а так же исключить конфликт словарей при переводе специализированных текстов.
Всё вышеизложенное не исключает тот факт, что машинный перевод стал одним из популярных видов деятельности человека. Несмотря на определённые недостатки выходного текста, машинный перевод действительно облегчает и ускоряет традиционный процесс перевода. В XXI веке - век науки и информатики - машинный перевод становится особым и эффективным средством для межъязыковой коммуникации во всех областях современной военной науки и техники. Появление машинного перевода можно и нужно считать активным помощником для военных специалистов. Результат этого вида перевода может быть использован как черновой вариант будущего текста, который будет профессионально в дальнейшем отредактирован переводчиком, а также как средство, чтобы в крайней ситуации отсутствия переводчика получить общее представление о теме и содержании текста.
Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах. – М., 2002.
Каничев М. Встреча компьютерных толмачей. // Мир ПК. – 1998, № 8.
Кормалев Д.А. Приложения технологии извлечения информации из текста: теория и практика. – Переяславль-Залесский, 2003.
Ножов И. Синтаксический анализ. // Компьютерра. – 2002, №21.
Сокирко А. Будущее машинного перевода. // Компьютерра. – 2002, №21.
Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода. Вопросы языкознания, 1956, № 5.
Tim McDevitt Frank Arnold Class Notes for Cryptologic Mathematics. -(FYS 100), 2012.
В данной статье рассмотрены основные виды систем машинного перевода. Рассмотрены основные системы машинного перевода, произведено их сравнение и анализ. Сделаны предположения о возможных путях развития подобных систем.
Ключевые слова: машинный перевод, обработка естественного языка, компьютерная лингвистика.
Машинный перевод представляет собой процесс связанного перевода текстов компьютерной программой с одного естественного языка на другой. [1]
Различают следующие основные цели использования машинного перевода [2, 3]:
- Быстрое ознакомление с интересующей информацией — машинный перевод позволяет получить в общих чертах информацию о содержании статьи, книги, научной работы и т. д.;
- Возможность коммуникаций — машинный перевод дает возможность написать любому человеку из любой точки Земли;
- Автоматическая локализация — позволяет быстрорастущим компаниям увеличивать рынок сбыта;
- Упрощение работы переводчика — используя машинный перевод, переводчик может значительно ускорить перевод текста;
В данной статье будут рассмотрены виды машинного перевода, самые популярные системы, работающие с русским языком, разобран принцип их работы, описаны основные достоинства и недостатки. Так же будут сделаны предположения о путях развития машинного перевода.
Виды машинного перевода
В настоящее время различают три вида систем машинного перевода [4, 5, 6]:
- Системы на основе грамматических правил (Rule-Based Machine Translation, RBMT);
- Статистические системы (Statistical Machine Translation, SMT);
Системы на основе грамматических правил производят анализ текста, который используется в процессе перевода. Перевод производится на основе встроенных словарей для данной языковой пары, а так же грамматик, охватывающих семантические, морфологические, синтаксические закономерности обоих языков. На основе всех этих данных исходный текст последовательно, предложение за предложением, преобразуется в текст на требуемом языке. Основной принцип работы таких систем — связь структур исходного и конечного текстов.
Системы на основе грамматических правил часто разделяют еще на три подгруппы — системы пословного перевода, трансфертные системы и интерлингвистические системы.
Преимуществами систем на основе грамматических правил являются грамматическая и синтаксическая точность, стабильность результата, возможность настройки на специфическую предметную область. К недостаткам систем на основе грамматических правил относят необходимость создания, поддержки и обновления лингвистических баз данных, трудоемкость создания такой системы, а так же ее высокая стоимость.
Статистические системы при своей работе используют статистический анализ. В систему загружается двуязычный корпус текстов (содержащий большое количество текста на исходном языке и его «ручной» перевод на требуемый язык), после чего система анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. д. Система является самообучаемой — при выборе варианта перевода она опирается на полученную ранее статистику. Чем больший словарь внутри языковой пары и чем точнее он составлен, тем лучше результат статистического машинного перевода. С каждым новым переведенным текстом улучшается качество последующих переводов.
Статистические системы отличаются быстротой настройки и легкостью добавления новых направлений перевода. Среди недостатков наиболее значительными являются наличие многочисленных грамматических ошибок и нестабильность перевода.
Гибридные системы сочетают в себе подходы, описанные ранее. Ожидается, что гибридные системы машинного перевода позволят объединить все преимущества, которыми обладают статистические системы и системы, основанные на правилах.
Крупнейшие системы машинного перевода, работающие с русским языком
В этой части будут рассмотрены три крупнейшие системы машинного перевода, работающие с русским языком — Abbyy Compreno [7], Google Translate [8] и Яндекс.Перевод [9, 10, 11]. Каждая из этих систем продолжает активно развиваться, совершенствуясь и увеличивая качество перевода.
AbbyyCompreno
Abbyy Compreno — технология, разработанная российской компанией «Abbyy», а также одноименная система, созданная ей же.
Для перевода система строит полное синтаксическое дерево исходного текста. Для его построения она использует отдельно заданные правила для каждого языка. Причем Compreno способна правильно обрабатывать анафоры, эллипсис и другие трудно поддающиеся обработке языковые конструкции. При переводе учитываются связи между словами в этом дереве, возможное положение этих слов в USH (Universal Sematic Hierarchy — иерархии универсальных семантических значений и отношений между ними) а также статистика взаимоотношений между словами.
Основным недостатком данной системы является её закрытость, отсутствие данных о полномасштабных тестированиях данной системы, что делает невозможным оценку качества производимого ей машинного перевода.
Google Translate
Google Translate — система, в настоящий момент разрабатываемая компанией Google. Первоначально разрабатывалась Franz Josef Och. Построена на статистическом методе перевода. Для обучения системы первоначально использовались параллельные корпуса текстов ООН, представленные на шести официальных языках ООН.
Данная система не осуществляет прямой перевод для языковых пар, в которые не входит английский язык. То есть, при переводе, например, с русского языка на французский, сначала будет осуществлен перевод с русского на английский язык, а после этого — с английского на французский.
Более того, для некоторых языков таких шагов больше. Например, тексты на белорусском языке вначале переводятся на русский, после этого на английский и только потом превращаются в текст на конечном языке. Это значительно снижает точность перевода и делает систему абсолютно непригодной для перевода ряда текстов.
Яндекс.Перевод
Яндекс.Перевод представляет собой сервис автоматического перевода слов, фраз, целых текстов, а так же веб-страниц. Как и Google Translate, Яндекс.Перевод использует статистический перевод. Яндекс.Перевод состоит из двух частей — модели перевода и модели языка. Модель перевода занимается построением графа, содержащего все возможные варианты перевода предложения. Модель языка выбирает лучший вариант перевода с точки зрения оптимальной сочетаемости слов в естественном языке. []
Хотя список доступных для перевода языков у Яндекс.Перевода значительно меньше, чем у Google Translate, перевод осуществляется напрямую, без использования промежуточных звеньев.
В настоящий момент, наиболее распространены системы машинного перевода, основанные на статистическом анализе. Эти системы проще создать и поддерживать. Кроме того, для обучения этих систем доступно огромное количество данных: в их распоряжении параллельные корпуса текстов, книги, переведенные на разные языки, веб-сайты, имеющие возможность выбора языка и многие другие источники данных.
В противоположность им, системы, основанные на правилах трудоемки в разработке и поддержке. Например, у компании Abbyy на создание своей Abby Compreno ушло около 15 лет! [7]
Однако, системы, основанные на правилах, уже сейчас имеют куда более высокое качество перевода, чем системы, основанные на статистике. Кроме, того, они куда более перспективны. Следует понимать, что с увеличением числа данных для статистики, качество перевода систем, основанных на статистике, увеличивается нелинейно, и в определенный момент настанет ситуация, после которой увеличение числа данных уже не будет давать хоть сколько-нибудь заметного улучшения качества перевода. Именно поэтому, разработки систем на основе правил будут представлять больший интерес.
Но построение систем на основе правил — задача хоть и необходимая и перспективная, но невероятно трудоемкая. Над созданием правил трудятся десятки лингвистов в течение многих лет. Поэтому прекрасным вариантом будет построение гибридной системы машинного перевода, которая будет обладать следующими качествами:
- Открытость — благодаря ей становится возможно пополнение базы правил не только ограниченной группой лиц, но силами всего сообщества
- Гибридный принцип построения — сочетание статистических и естественно-языковых технологий позволит при меньшей базе правил добиться существенного повышения качества перевода
Возможность работы над системами, используя силы русского NLP-сообщества (научное сообщество, занимающееся проблемами компьютерной обработки естественного языка), успешно доказана проектами OpenCorpora [12] и NLPub [13].
В статье рассмотрены виды систем машинного перевода, приведены примеры таких систем, произведено их сравнение и анализ. Наибольший интерес представляют системы, основанные на правилах и гибридные системы.
Будущим исследователям и разработчикам систем машинного перевода следует обратить внимание на создание открытых гибридных систем машинного перевода, которые бы развивались и дополнялись силами научного сообщества.
Основные термины (генерируются автоматически): машинный перевод, система, естественный язык, перевод, правило, русский язык, английский язык, исходный текст, научное сообщество, статистический анализ.
В XXI веке существует тенденция стабильного развития в мире цифровых технологий. Вместе с тем, нарастающая глобализация мировой экономики и укрепление международных отношений направляет все большее количество компаний, которые заинтересованы в успешном сотрудничестве с иностранными бизнесменами, фирмами и корпорациями, увеличивать профессионализм в интернациональных коммуникациях и деловом общении. Таким образом, немалая ответственность ложится на такую сферу деятельности как перевод, т. к. этот вид коммуникативного акта, подразумевающий интерпретацию смысла с одного языка на другой, несомненно, является атрибутом построения бизнеса на мировом рынке. Кроме того, политическую, культурную, социальную сферы жизни человека на уровне общения всего человечества действительно сложно представить без участия квалифицированного переводчика.
Чтобы рассмотреть взаимодействия переводчика и технических ресурсов, для начала стоит выделить два вида перевода, которые существуют на сегодняшний день:
- автоматизированный (machine-assisted translation (MAT)). В данном случае программа помогает переводчику осуществлять перевод. В свою очередь, автоматизированный перевод имеет определенные формы взаимодействия:
− частично автоматизированный перевод — при таком переводе переводчик использует электронные словари либо другие электронные ресурсы;
− системы с разделением труда — в таком случае компьютер настроен на то, чтобы в исходном тексте переводить только фразы, которые имеют жёстко заданные структуры (делает это таким образом, чтобы не требовались дальнейшие поправки и исправления в тексте), а всё, не включенное в структуру перевода, выдает человеку;
- машинныйперевод (machine translation (MT)).Такой перевод, основанный на статике, является полностью автоматическим, осуществляется без какого-либо участия редактора. Машинный перевод (МП) работает по принципу сравнения больших объемов языковых пар, он производит поиск наиболее точного перевода предложения с использованием информационных данных, которые получены из двуязычной совокупности текстов. Языковые пары — это тексты, которые содержат синтаксические единицы на одном языке и аналогичные им предложения и формулировки на другом. [1] В качестве примера для таких языковых пар служат параллельные тексты. Как следствие преимущества высоких технологий МП обладает такой характеристикой как запоминания больших отрывков, абзацев и текстов, происходит некое «самообучение» машины. Здесь же следует отметить несколько типов взаимодействия человека и ЭВМ при МП:
− предредактирование — тип редактирования, при котором переводчик подготавливает текст к обработке специализированной программой, в таком случае происходит упрощение текста за счет удаления возможных отрывков с неоднозначным прочтением, после чего осуществляется программная обработка;
− интерредактирование — тип редактирования, при котором переводчик вносит свои корректировки в процессе работы программы, тем самым решая сложные задачи перевода;
− постредактирование — тип редактирования, при котором запрограммированная машина производит обработку исходного текста, после завершения переводчик редактирует текст, переведенный машиной, исправляя ошибки и недочеты;
− смешанный — тип редактирования, при котором процесс МП может включать в себя одновременно пред- и постредактирование. [2]
Стоит отметить, что на сегодняшний день результаты работы МП далеки от совершенства, и необходима профессиональная корректировка ряда обнаруженных погрешностей в переведенном тексте. [3] Анализы готового текста на лексическую целостность показали, что вычислительные машины успешно справляются с простыми частями речи и устойчивыми выражениями, но допускают частые ошибки при переводе падежей, речевых оборотов, логико-смысловых акцентов в предложении и построении самих предложений. Это объясняется различной интерпретацией падежей на примере русского и английского языков: в русском — через окончание, в английском — через предлоги. [4] В таком случае несложная грамматическая структура китайского языка, а именно отсутствие как таковых окончаний у слов, казалось бы, должна упростить задачу МП, но порядок слов в предложении и огромное количество омонимичных единиц в языке, всё так же оставляет пробелы и недоработки в попытках создания совершенного текста с помощью только одного МП.
В таком случае можно заверить, что готовый текст, который был переведен с помощью МП, почти всегда требует дополнительных доработок. Поэтому адекватность и компетентность результатов работы с помощью электронных систем стоит оценивать не только качеством самого МП, но и, конечно, качеством дальнейшего редактирования. В данном случае уместно будет описать ещё одну классификацию, в которой рассматриваются стратегии постредактирования текста, переведенным машиной:
− цельное редактирование перевода с проверкой всех составляющих текста по исходным частям;
− использование МП только как подсказки в терминологии;
− использование МП как грамматического или лексического подстрочника с подбором синонимичных конструкций и выражений;
− чтение МП и корректировка вызывающих сомнения фрагментов с обращением к первичному тексту;
− чтение МП и исправление видимых погрешностей и ошибок без обращения к первичному тексту. [1]
В полной мере проанализировав варианты перевода текста и его редактирования, закономерной вещью будет являться рассмотрение более конкретных инструментов перевода, благодаря которым переводчик выполняет свою работу. Известные разработчики на рынке цифровых технологий не оставляют без внимания такую важную для международного общения сферу перевода. Многие корпорации, такие как Google иMicrosoft, заявили о себе как в письменном МП, так и в устном, выпустив мобильные приложения, которые позволяют переводить и воспроизводить слова, фразы, предложения и целые фрагменты, придерживаясь канонов грамматики и фонетики. [5] Ниже приведена классификация различных электронных ресурсов и информационных платформ, существующих на данный момент:
− СМП (системы машинного перевода), выполняющие полностью автоматизированный перевод;
− системы с функцией Translation Memory, которые предоставляют возможность для работы в системах автоматизированного перевода (SDL Trados, IBM Translation Manager, Atril Deja Vu X, Wordfast, Star Transit, Omega T и т. д.); [6]
− переводчики онлайн, которые осуществляют перевод текста прямо в окне браузера (Яндекс, Google);
− словари онлайн (PROMT, ABBYY Lingvo, Мультитран, БКРС (для китайского языка); [7]
− машинный перевод с контролем языка на основе мощных баз знаний (менеджер докачки файлов RegetDelux, специальная программа поиска неструктурированных текстов TextAnalyst); [8]
− услуги переводчиков в сети Internet. [9]
Подводя итог ко всему вышесказанному, стоит отметить, что уже сегодня машинный перевод в сочетании с дальнейшим редактированием текста становится достаточно конкурентно способной переводческой работой на основании стратегических направленностей и рекомендаций, разработанных специалистами на данном поприще. Нельзя не отметить постоянный, инновационный прогресс в сфере компьютерных технологий и растущее осознание необходимости их использования. Таким образом, профессиональные переводчики осваивают полезные и продуктивные плоды постоянного развития информационных систем, и эффективность от такого взаимодействия человека и машины в быстро меняющемся мире перевода будет только возрастать. Стоит также сказать, что отмеченные программы перевода, которые успешно используются переводчиками, до сих пор не могут разрешить самую сложную задачу процесса перевода: выбор контекстуально-необходимого варианта, который обусловлен многими причинами. Качество переводимого текста зависит от стиля и тематики первичного текста, а также синтаксической, грамматической и лексической родственности языков, между которыми производится перевод. Чем более формализован стиль исходного документа, тем качественнее перевод, поэтому наиболее высокие результаты МП отмечены при интерпретации текстов технического и официально-делового стилей. Такие изъяны ещё долго будут откладывать триумф технических инноваций на переводческом поприще, по этой же причине и переводчик должен обладать высокой квалификацией и профессионализмом, чтобы осуществлять перевод должным образом.
Основные термины (генерируются автоматически): автоматизированный перевод, машинный перевод, тип редактирования, первичный текст, переводчик, текст, ABBYY, готовый текст, исходный текст, китайский язык.
Читайте также: