Машинный перевод и большие языковые модели

Машинный перевод (МП) — перевод текста в цифровом формате с одного естественного языка на другой с помощью компьютера.

 

• Главной проблемой, с которой сталкиваются системы машинного перевода, является совокупная неоднозначность всех слов и всех грамматических правил.

 

• Задача системы машинного перевода состоит в принятии грамотных решений относительно выбора значений слов и применения грамматики для перевода.

 

• Методика, применяемая в системе для устранения неоднозначности и принятия решений, зависит от подхода, использованного в процессе ее разработки.

 

• В течение последних десятилетий неоднократно предпринимались попытки решить проблему неоднозначности и повысить качество результатов машинного перевода; было доказано и опровергнуто множество теорий, что в итоге привело к появлению двух основных подходов: машинному переводу на основе правил (RBMT) и статистическому машинному переводу - SMT (включая нейронный машинный перевод, NMT), а также гибридным решениям.

 

• Профессиональному переводчику не повредит знание о возможностях или пределах настройки МП для получения представления об объемах постредактирования (в непосредственной связи с трудозатратами и расчетом стоимости).

 

• Системы класса RMBT традиционно считаются более устойчивым с точки зрения терминологии (после настройки), а результат применения SMT – более читабельным.

 

• Таблицы типовых ошибок МП обычно приветствуются переводчиками для получения представления о возможных проблемах, связанных с выбором системы МП.

 

• Уровень настройки системы МП напрямую связан с объемом последующего постредактирования и решением проблем в процессе постредактирования, основанном на понимании поведения системы.