Сергей Гладков, генеральный директор, группа компаний «Логрус Глобал»
Сегодня мы предлагаем вашему вниманию перевод на русский язык работы Антонио Тораля, профессора университета Кронинген, под названием «Постредактизм – это ухудшенный переводизм».
Восемнадцать лет назад в журнале Multilingual Computing and Technology была опубликована моя статья «Translation Is About People. A look at integrating automatic translation into the localization process». До сих пор я получаю отзывы о том, что высказанные в этой статье мысли во многом до сих пор актуальны.
Однако, в полном соответствии с предсказаниями Рэя Курцвейля, которые мы недавно сделали доступными русскоязычной аудитории в нашей программе «Окно в будущее», успехи нейросетей и методик их глубокого обучения серьезно изменили ситуацию и в области профессиональных переводов. Если в течение 60 лет с появления компьютеров машинный перевод оставался мечтой, которая практически не годилась для реального применения, то сегодня системы машинного перевода на основе нейросетей выдают результат лучше, чем плохой переводчик.
Этот реальный прогресс сопровождается мифами, которые укореняют ложные представления в общественном сознании о том, что же предлагает нам технология нейросетей глубокого обучения. Они не позволяют разглядеть границы применения этой технологии и мешают осознать ее ограничения.
Специалисты компании Логрус Глобал давно следят за технологиями машинного перевода и тщательно изучают их практическую применимость.
Перечислим основное, что надо знать о технологии машинного перевода и её применимости.
Очень важно видеть основное различие между ИИ и машинным переводом. Оно заключается в том, что нейросеть не понимает, что она анализирует.
А это означает, что как бы ни был гладок полученный текст (а нейросети выдают существенно более гладкий текст, чем все системы предыдущих поколений), он весь требует сплошной вычитки на предмет фактической точности передачи мыслей исходного текста. Потому, что в нем есть фактические ошибки – и их, увы, теперь только труднее обнаружить.
Прямое следствие этого факта заключается в том, что если вы хотите получить гарантированно точный перевод, то всю выдачу в любом случае должен прочитать человек, роль которого – верифицировать суть, подтвердить, что смысл передан правильно.
Нейросети общего применения – такие как Google Translate, Bing Translator или Яндекс Переводчик, натренированы на общей лексике.
Это означает, что они лучше справляются со всеми типами контента, которые изобилуют в Интернете – новостями, юридической и финансовой лексикой общего назначения (не специализированной).
Но, как только речь заходит о сложной технической или специальной предметной области, такой движок «пасует», потому что в открытом доступе находится ничтожно мало специальной профессиональной терминологии, либо она отсутствует по причине новизны.
Когда выходит новый медицинский препарат или новое устройство, специалисты придумывают ему названия, которых раньше не существовало(либо используемые слов имели другое значение). Специально обученная на данных определенной компании нейросеть лучше справится с терминологией, принятой в конкретной отрасли конкретной компанией, но новые термины она за переводчика не выдумает.
Поэтому терминология – а главное, специальные отраслевые знания – приобретает исключительную важность.
Бытует мнение, что если отредактировать машинный перевод, то можно добиться приемлемого качества. Это отчасти верно, но это мнение лукаво, потому что тут используется слово «приемлемое». Что такое «приемлемое»?
Устроит ли вас материал, качество которого заведомо хуже, чем у перевода профессиональным переводчиком, пусть в нем и нет фактических ошибок (подчеркнем это) на уровне предложений?
До недавнего времени по этому вопросу не существовало обоснованного доказательства того, о чем давно говорили профессионалы в области перевода.
Однако этим летом появилась работа профессора Тораля из университета Кронинген, в которой на основе понятных и четко описанных вычислительных экспериментов показаны результаты анализа параметров, относящихся ко всему тексту в целом, подтверждающих все утверждения теоретиков в области перевода.
Можно сказать, что эта работа сопрягает вычислительную лингвистику с классической, впервые показывая, чем конкретно отличаются переводы, созданные человеком, от выдачи нейродвижка, причем постредактированной.
Чтобы не быть голословными, мы приводим перевод на русский язык отчета профессора Тораля о проделанной работе. (Мы сделали и публикуем этот перевод с разрешения профессора и отметим, что публиковать этот материал без нашего разрешения нельзя.)
Если сформулировать выводы этого исследования в одном предложении, то доказано, что постредактированный человеком же машинный перевод имеет упрощенный язык, более нормализован и буквален, чем перевод человеком.
Заметим, что выводы профессора Тораля основаны на анализе достаточно общих и примитивных количественных параметров всего текста в целом – лексического разнообразия, лексической плотности и анализа последовательности частей речи. Это достаточно грубые параметры измерения качества перевода.
За кадром осталось то, что видит любой носитель языка, но что пока трудно измерить численно: единообразие различных фрагментов перевода, стройность использования и применения терминологии, стиль изложения и прочие очень важные вещи, например, степень фактического воздействия на целевую аудиторию.
Даже в общей лексике в области маркетинговых переводов совершенно недостаточно просто правильно перевести. Очень важно воздействие на аудиторию, так что затраты на постредактирование машинного перевода маркетингового текста, как правило, приносят не экономию, а полный убыток, ибо не достигают сознания целевой аудитории и следовательно уходят впустую.
Обо всем этом и многом другом мы постараемся рассказать в последующих материалах, следите за нашими публикациями.
В заключение мы приглашаем обращаться к специалистам компании Логрус Глобал за квалифицированными экспертными ответами на такие вопросы:
МОИ СООБРАЖЕНИЯ ПО ПОВОДУ СТАТЬИ
Светлана Светова
Работа Антонио Тораля, профессора университета Кронинген, под названием «Постредактизм – это ухудшенный переводизм» мне скорее не понравилась. Ниже объясняю, почему.
МОИ КОММЕНТАРИИ К ТЕКСТУ СОПРОВОДИТЕЛЬНОЙ СТАТЬИ
Светлана Светова
Во-первых, я лично тоже очень люблю перечитать статью «Translation Is About People. A look at integrating automatic translation into the localization process», поскольку высказанное там, что интересно, актуально и по сей день!
ДАЖЕ ЕСЛИ ЧЕЛОВЕК ОТРЕДАКТИРОВАЛ МАШИННУЮ ВЫДАЧУ, РЕЗУЛЬТАТ ВСЕ РАВНО БУДЕТ СУЩЕСТВЕННО ХУЖЕ, ЧЕМ ПРОФЕССИОНАЛЬНЫЙ ПЕРЕВОД ЧЕЛОВЕКОМ «С НУЛЯ»
Это сильно зависит опять же от того, кто этот «человек». Если искусный постредактор – никто ничего не заметит. И наоборот, если у заказчика есть желание повоспитывать переводчика, то следы МП он будет видеть везде, даже там, где их не было и нет.
Результат МП весь требует сплошной вычитки на предмет фактической точности передачи мыслей исходного текста.
Это посыл любым пользователям МП, или только переводчикам?
Потому что в нем есть фактические ошибки – и их, увы, теперь только труднее обнаружить.
С этим остроумным высказыванием согласна на 100 процентов.
Прямое следствие этого факта заключается в том, что если вы хотите получить гарантированно точный перевод, то всю выдачу в любом случае должен прочитать человек, роль которого – верифицировать суть, подтвердить, что смысл передан правильно.
Да, абсолютно все известные мне инструкции по постредактированию говорят, что последующее редактирование необходимо всегда. Хотя про «гарантированно точный» перевод тоже можно поспорить…
Бытует мнение, что если отредактировать машинный перевод, то можно добиться приемлемого качества.
Так и есть!
Это отчасти верно, но это мнение лукаво, потому что тут используется слово «приемлемое». Что такое «приемлемое»?
За которое заплатили :-)
Устроит ли вас материал, качество которого заведомо хуже, чем у перевода профессиональным переводчиком, пусть в нем и нет фактических ошибок (подчеркнем это) на уровне предложений?
Мало времени, нет фактических ошибок – берем!
Однако этим летом появилась работа профессора Тораля из университета Кронинген, в которой на основе понятных и четко описанных вычислительных экспериментов показаны результаты анализа параметров, относящихся ко всему тексту в целом, подтверждающих все утверждения теоретиков в области перевода.
К сожалению, показывает мало (см. мои соображения выше).
Можно сказать, что эта работа сопрягает вычислительную лингвистику с классической, впервые показывая, чем конкретно отличаются переводы, созданные человеком, от выдачи нейродвижка, причем постредактированной.
Отличается, по моему личному мнению, исключительно уровнем искусства человека-постредактора на основании умелого применения МП.
Если сформулировать выводы этого исследования в одном предложении, то доказано, что постредактированный человеком же машинный перевод имеет упрощенный язык, более нормализован и буквален, чем перевод человеком.
Потому что обычно (в 98% случаев) делается совсем в других условиях. Надо бы иметь сострадание к человеку в условиях time pressure!
За кадром осталось то, что видит любой носитель языка, но что пока трудно измерить численно: единообразие различных фрагментов перевода, стройность использования и применения терминологии, стиль изложения и прочие очень важные вещи, например, степень фактического воздействия на целевую аудиторию.
Если на перевод дается 3 часа, то об этом думать не приходится уже.
Даже в общей лексике в области маркетинговых переводов совершенно недостаточно просто правильно перевести. Очень важно воздействие на аудиторию, так что затраты на постредактирование машинного перевода маркетингового текста, как правило, приносят не экономию, а полный убыток, ибо не достигают сознания целевой аудитории и следовательно уходят впустую.
Говорят, могут дать пищу для ума, идеи для размышления и творческой переработки…