PEMT

О серьезных отличиях перевода человеком от исправленного машинного перевода и о том, как все это сегодня применять

Сергей Гладков, генеральный директор, группа компаний «Логрус Глобал»

Сегодня мы предлагаем вашему вниманию перевод на русский язык работы Антонио Тораля, профессора университета Кронинген, под названием «Постредактизм – это ухудшенный переводизм».

Восемнадцать лет назад в журнале Multilingual Computing and Technology была опубликована моя статья «Translation Is About People. A look at integrating automatic translation into the localization process». До сих пор я получаю отзывы о том, что высказанные в этой статье мысли во многом до сих пор актуальны.

Однако, в полном соответствии с предсказаниями Рэя Курцвейля, которые мы недавно сделали доступными русскоязычной аудитории в нашей программе «Окно в будущее», успехи нейросетей и методик их глубокого обучения серьезно изменили ситуацию и в области профессиональных переводов. Если в течение 60 лет с появления компьютеров машинный перевод оставался мечтой, которая практически не годилась для реального применения, то сегодня системы машинного перевода на основе нейросетей выдают результат лучше, чем плохой переводчик.

Этот реальный прогресс сопровождается мифами, которые укореняют ложные представления в общественном сознании о том, что же предлагает нам технология нейросетей глубокого обучения. Они не позволяют разглядеть границы применения этой технологии и мешают осознать ее ограничения.

Специалисты компании Логрус Глобал давно следят за технологиями машинного перевода и тщательно изучают их практическую применимость.

Перечислим основное, что надо знать о технологии машинного перевода и её применимости.

НЕЙРОСЕТЬ ГЛУБОКОГО ОБУЧЕНИЯ – ЭТО НЕ «ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ»

Очень важно видеть основное различие между ИИ и машинным переводом. Оно заключается в том, что нейросеть не понимает, что она анализирует.

А это означает, что как бы ни был гладок полученный текст (а нейросети выдают существенно более гладкий текст, чем все системы предыдущих поколений), он весь требует сплошной вычитки на предмет фактической точности передачи мыслей исходного текста. Потому, что в нем есть фактические ошибки – и их, увы, теперь только труднее обнаружить.

Прямое следствие этого факта заключается в том, что если вы хотите получить гарантированно точный перевод, то всю выдачу в любом случае должен прочитать человек, роль которого – верифицировать суть, подтвердить, что смысл передан правильно.

ВАЖНО, НА ЧЕМ НАТРЕНИРОВАНА НЕЙРОСЕТЬ, И ОЧЕНЬ ВАЖНА ТЕРМИНОЛОГИЯ

Нейросети общего применения – такие как Google Translate, Bing Translator или Яндекс Переводчик, натренированы на общей лексике.

Это означает, что они лучше справляются со всеми типами контента, которые изобилуют в Интернете – новостями, юридической и финансовой лексикой общего назначения (не специализированной).

Но, как только речь заходит о сложной технической или специальной предметной области, такой движок «пасует», потому что в открытом доступе находится ничтожно мало специальной профессиональной терминологии, либо она отсутствует по причине новизны.

Когда выходит новый медицинский препарат или новое устройство, специалисты придумывают ему названия, которых раньше не существовало(либо используемые слов имели другое значение). Специально обученная на данных определенной компании нейросеть лучше справится с терминологией, принятой в конкретной отрасли конкретной компанией, но новые термины она за переводчика не выдумает.

Поэтому терминология – а главное, специальные отраслевые знания – приобретает исключительную важность.

ДАЖЕ ЕСЛИ ЧЕЛОВЕК ОТРЕДАКТИРОВАЛ МАШИННУЮ ВЫДАЧУ, РЕЗУЛЬТАТ ВСЕ РАВНО БУДЕТ СУЩЕСТВЕННО ХУЖЕ, ЧЕМ ПРОФЕССИОНАЛЬНЫЙ ПЕРЕВОД ЧЕЛОВЕКОМ «С НУЛЯ»

Бытует мнение, что если отредактировать машинный перевод, то можно добиться приемлемого качества. Это отчасти верно, но это мнение лукаво, потому что тут используется слово «приемлемое». Что такое «приемлемое»?

Устроит ли вас материал, качество которого заведомо хуже, чем у перевода профессиональным переводчиком, пусть в нем и нет фактических ошибок (подчеркнем это) на уровне предложений?

До недавнего времени по этому вопросу не существовало обоснованного доказательства того, о чем давно говорили профессионалы в области перевода.

Однако этим летом появилась работа профессора Тораля из университета Кронинген, в которой на основе понятных и четко описанных вычислительных экспериментов показаны результаты анализа параметров, относящихся ко всему тексту в целом, подтверждающих все утверждения теоретиков в области перевода.

Можно сказать, что эта работа сопрягает вычислительную лингвистику с классической, впервые показывая, чем конкретно отличаются переводы, созданные человеком, от выдачи нейродвижка, причем постредактированной.

Чтобы не быть голословными, мы приводим перевод на русский язык отчета профессора Тораля о проделанной работе. (Мы сделали и публикуем этот перевод с разрешения профессора и отметим, что публиковать этот материал без нашего разрешения нельзя.)

Если сформулировать выводы этого исследования в одном предложении, то доказано, что постредактированный человеком же машинный перевод имеет упрощенный язык, более нормализован и буквален, чем перевод человеком.

Заметим, что выводы профессора Тораля основаны на анализе достаточно общих и примитивных количественных параметров всего текста в целом – лексического разнообразия, лексической плотности и анализа последовательности частей речи. Это достаточно грубые параметры измерения качества перевода.

За кадром осталось то, что видит любой носитель языка, но что пока трудно измерить численно: единообразие различных фрагментов перевода, стройность использования и применения терминологии, стиль изложения и прочие очень важные вещи, например, степень фактического воздействия на целевую аудиторию.

Даже в общей лексике в области маркетинговых переводов совершенно недостаточно просто правильно перевести. Очень важно воздействие на аудиторию, так что затраты на постредактирование машинного перевода маркетингового текста, как правило, приносят не экономию, а полный убыток, ибо не достигают сознания целевой аудитории и следовательно уходят впустую.

Обо всем этом и многом другом мы постараемся рассказать в последующих материалах, следите за нашими публикациями.

В заключение мы приглашаем обращаться к специалистам компании Логрус Глобал за квалифицированными экспертными ответами на такие вопросы:

- Можем ли мы воспользоваться машинным переводом для сокращения сроков и стоимости перевода? Если да, как это лучше сделать?
- Как лучше использовать накопившиеся у нас материалы прошлых переводов для обучения нашего собственного движка машинного перевода?
- Как лучше подготовить имеющиеся у нас корпуса машинного перевода для обучения нашего собственного специализированного нейродвижка?
- Где границы применимости современной технологии глубокого обучения нейросетей? Как мы можем ею практически воспользоваться?

МОИ СООБРАЖЕНИЯ ПО ПОВОДУ СТАТЬИ

Светлана Светова

Работа Антонио Тораля, профессора университета Кронинген, под названием «Постредактизм – это ухудшенный переводизм» мне скорее не понравилась. Ниже объясняю, почему.

1. Вообще никак не рассматривается вопрос уровня настройки МП - почему он именно такой, с таким лексическим покрытием и такой плотностью. (Причем там один из результатов МП - десятилетней давности!). А это крайне существенно для постредактирования. При этом основной посыл - постредактирование обеспечивает только более высокую скорость, а все остальное плохо. Да ничего подобного! В умелых руках и при умелом подходе (включая умелую настройку) есть масса известных преимуществ.
2. Вообще никак не рассматривается вопрос квалификации постредакторов, то есть автор этот аспект проблемы просто игнорирует. Он только пишет, что имеются результаты работы и профессиональных, и непрофессиональных переводчиков. И никто из них не постредактор! Хотя результат, который он изучает, НАПРЯМУЮ связан с умениями и навыками конкретного постредактора. И хороших постредакторов пока довольно мало, опыта мало, всего мало. На чем выводы делать, если игнорировать квалификацию того, кто подготовил анализируемые тексты? Зато автор рассуждает про "отпечаток системы МП". Но не пишет совсем, сколько надо «тренироваться», чтобы уметь скрывать этот отпечаток.
3. Как можно сравнивать результаты, если работу выполнял не один и тот же человек, сначала в роли переводчика, а потом в роли постредактора? Это все равно что сравнивать переводы, выполненные разными людьми! Понятное дело, что у всех разный уровень обучения, подготовки, знания предметной области, требований заказчика. И о чем это нам говорит? Тут Вася лучше, чем Петя, а там Петя лучше.
4. Когда автор говорит, что переводы после МП отличаются упрощенным языком изложения, более нормализованы и буквальны, то, странное дело, никакого внимания не обращает на то, в каких условиях они обычно выполняются. А основное условие - нехватка времени! Я тут недавно оказалась на обсуждении актуальных вопросов современности среди некоторых западных БП, которые честно говорили, что «… time pressure is the main challenge now!», и что многие теряют заказчиков, если не успевают за ними бежать. То есть постредактор МП с самого начала поставлен в условия, когда надо работать очень быстро, результат выдавать прямо сейчас. Но автор статьи это из рассмотрения выбрасывает совсем.
5. "Широкое применение ПРМП вместо ПЧ может в долгосрочной перспективе привести к серьезным последствиям для конечного языка перевода - например, к его обеднению..." А может быть, просто хороших постредакторов будет становиться все больше – и особо умелых тоже? Раз есть такой серьезный запрос от заказчиков, а заказчики в переводческой отрасли всегда и все решают сами, никого не спрашивая особо, как показывает весь опыт с ТМ.

МОИ КОММЕНТАРИИ К ТЕКСТУ СОПРОВОДИТЕЛЬНОЙ СТАТЬИ

Светлана Светова

Во-первых, я лично тоже очень люблю перечитать статью «Translation Is About People. A look at integrating automatic translation into the localization process», поскольку высказанное там, что интересно, актуально и по сей день!

ДАЖЕ ЕСЛИ ЧЕЛОВЕК ОТРЕДАКТИРОВАЛ МАШИННУЮ ВЫДАЧУ, РЕЗУЛЬТАТ ВСЕ РАВНО БУДЕТ СУЩЕСТВЕННО ХУЖЕ, ЧЕМ ПРОФЕССИОНАЛЬНЫЙ ПЕРЕВОД ЧЕЛОВЕКОМ «С НУЛЯ»

Это сильно зависит опять же от того, кто этот «человек». Если искусный постредактор – никто ничего не заметит. И наоборот, если у заказчика есть желание повоспитывать переводчика, то следы МП он будет видеть везде, даже там, где их не было и нет.

Результат МП весь требует сплошной вычитки на предмет фактической точности передачи мыслей исходного текста.

Это посыл любым пользователям МП, или только переводчикам?

Потому что в нем есть фактические ошибки – и их, увы, теперь только труднее обнаружить.

С этим остроумным высказыванием согласна на 100 процентов.

Да, абсолютно все известные мне инструкции по постредактированию говорят, что последующее редактирование необходимо всегда. Хотя про «гарантированно точный» перевод тоже можно поспорить…

Бытует мнение, что если отредактировать машинный перевод, то можно добиться приемлемого качества.

Так и есть!

Это отчасти верно, но это мнение лукаво, потому что тут используется слово «приемлемое». Что такое «приемлемое»?

За которое заплатили :-)

Мало времени, нет фактических ошибок – берем!

К сожалению, показывает мало (см. мои соображения выше).

Отличается, по моему личному мнению, исключительно уровнем искусства человека-постредактора на основании умелого применения МП.

Потому что обычно (в 98% случаев) делается совсем в других условиях. Надо бы иметь сострадание к человеку в условиях time pressure!

Если на перевод дается 3 часа, то об этом думать не приходится уже.

Говорят, могут дать пищу для ума, идеи для размышления и творческой переработки…