Англо-русский словарь

В разработке словаря принимали участие студенты:
Российского государственного педагогического университета им. А. И. Герцена,
Санкт-Петербургского государственного университета,
Санкт-Петербургского государственного экономического университета
и Санкт-Петербургского политехнического университета Петра Великого.


Термин Абб.(англ.) Абб.(рус.) Перевод Значение Контекст
abstractive summarization - - абстрактивная суммаризация - Abstractive summarization allows the AI to generate a concise summary using its own understanding of the text.
accessible rich internet applications ARIA - доступные расширенные интернет-приложения Набор технологий для улучшения доступности веб-контента для людей с ограниченными возможностями. ARIA tags help make dynamic content accessible to screen readers.
actionable Intelligence - - действенный интеллект - The ISOC concept addresses this need by aggregating multiple systems into a single interface and applying an analytic layer that produces actionable intelligence.
active learning - - активное обучение - Active learning can improve AI models by selecting the most informative training points when data labelling is costly. Bayesian optimization is a sequential strategy used for optimizing expensive black-box functions and often works with active learning to determine the next query to the black-box function.
adaptable language pair - - настраиваемая языковая пара - -
adaptive generative translation AGT - адаптивный генеративный перевод - The AGT (Adaptive Generative Translation) functionality of memoQ, for example, adds translation proposals from GPT tools via Microsoft Azure.
adaptive machine translation AMT АМП адаптивный машинный перевод Системы МП, автоматически подстраивающиеся под контекст в процессе обучения на правке пользователя при постредактировании. Adaptive MT systems learn from user corrections to improve over time.
AI Post-Editing APE - постредактирование с помощью ИИ - AI post-editing can significantly reduce human editing time.
AI text detector AITD - детектор теста, сгенерированного ИИ - AITD are software tools or algorithms designed to analyze written content to assess the likelihood that it was generated byAI rather than a human.
AI text generator AITG - ИИ-генераторы текста - AITG has transformed content creation across industries like journalism, marketing, customer service, education, and entertainment, generating text for tasks ranging from drafting emails to composing complex narratives.
AI trainer - - тренер ИИ Специалист, который обучает модели искусственного интеллекта, подбирая данные и настраивая алгоритмы. In Yandex they have a special name for this kind of job: AI trainer.
AI writer - - ИИ-писатель - The AI writer generated a compelling short story.
AI writing - - написание с помощью искуственного интеллекта - AI writing tools are becoming increasingly popular among content creators.
AI-generated language - - искуственно сгенерированный язык - Standard language ideology extends to AI-generated language and technologies, in which hierarchies of language are reinforced.
alignment - - выравнивание; элайн Процесс сопоставления элементов в данных. Data alignment is crucial for training multilingual models.
anti-plagiarism - - антиплагиат Технологии или системы, предназначенные для выявления заимствованных текстов и предотвращения несанкционированного копирования. As a result, I wrote a scientific paper, passed the "Anti-Plagiarism" check.
artificial general intelligence AGI ОИИ общий искусственный интеллект - The concept of Artificial General Intelligence remains a topic of debate, with researchers envisioning machines that possess human-like cognitive abilities.
artificial intelligence AI ИИ искусственный интеллект - -
artificial narrow intelligence ANI ИУИ искусственный узкий интеллект Тип искусственного интеллекта, в котором алгоритм обучения создается для выполнения единственной функции. Artificial Narrow Intelligence is widespread today, with systems designed to perform specific tasks like language translation and speech recognition.
artificial neural network ANN - нейронная сеть - The artificial neural network was trained on millions of images.
attention mechanism - - механизм внимания Техника, используемая в рекуррентных нейронных сетях и сверточных нейронных сетях для поиска взаимосвязей между различными частями входных и выходных данных. Authors describe a convolutional network model with a soft attention mechanism.
attentional mechanism - - механизм внимания Техника, используемая в рекуррентных нейронных сетях и сверточных нейронных сетях для поиска взаимосвязей между различными частями входных и выходных данных. Probably the most important is that modern models include an attentional mechanism that allows the next word in sequence to be predicted from some previous far in the past.
audio command - - голосовая команда - The smart speaker responded to the audio command.
audiodescription AD AD аудиодескрипция; тифлокомментирование Описание предмета, пространства или действия, которые непонятны незрячему (слабовидящему) без специальных словесных пояснений. Viewers with visual impairments rely on the audio description for a complete movie experience.
Audio User Interface AUI - речевой интерфейс пользователя - The audio user interface allows hands-free interaction with the device.
audio-to-text - - преобразование аудиозаписи речи в текст - I downloaded a new transcriber that simplifies audio-to-text conversion.
audiovisual translation AVT АВП аудиовизуальный перевод Адаптация мультимедийного контента. The MA Chinese-English Audiovisual Translation is designed to prepare you for work in the fast-growing audiovisual sector of the language industries.
automated metric - - автоматизированная метрика - -
automated subtitles - - автоматические субтитры Текстовые версии диалогов и звуковых эффектов, которые генерируются для видео с помощью технологий распознавания речи. Automatic subtitles are text versions of dialogue and sound effects that are automatically generated for videos using speech recognition technologies.
automated translation - - автоматизированный перевод Автоматический перевод текста с одного естественного языка на другой, выполняемый человеком с помощью лингвистического ПО. The linguistics as it exists has emerged in Russia and the USSR in the late 50s and the goal was to create automated translation.
automatic evaluation - - автоматическая оценка (перевода) - -
automatic evaluation metric AEM - метрика автоматической оценки (перевода) - -
automatic post-editing APE АПР автоматическое постредактирование Автоматическое исправление результатов перевода. -
automatic speech recognition ASR APP автоматическое распознавание речи Технология, основанная на нескольких ключевых процессах преобразования устной речи в текст. Modern automatic speech recognition systems, like Siri, use deep learning to convert spoken language into text with high accuracy.
automatic translation - - автоматический перевод - -
automatic voice recognition AVR - автоматическое распознавание речи - The Automatic Voice Recognition system accurately transcribes spoken words into text.
autoregressive language model - - авторегрессионная языковая модель - As a result, XLNet integrates the properties of autoregressive language models and autocoders, bypassing the shortcomings of both methods.
back-propagation - - обратное распространение Алгоритм обучения нейронных сетей, при котором ошибка на выходе передаётся обратно через сеть для корректировки весов. Back-propagation, In MT, after a neural network has generated a target language hypothesis, it is compared to an ideal reference translation, and errors are passed back through the network and the weights on the arcs (the parameters) updated.
back-translation - - обратный перевод - Back translation refers to a three-step translation quality-control process that entails translating a completed translation back to the original language.
baseline model - - базовая модель - LLMs and Baselines
baseline engine - - основной модуль - -
batch training - - пакетное обучение - With batch training, we want to update our weights according to the average direction on the batch of data input.
benchmark - - тест на производительность Стандарт или набор тестов, используемый для сравнения производительности систем ИИ. We demonstrate gains on translation quality over best systems from WMT-22 across a number of language pairs on the WMT-22 benchmark.
bidirectional language model BiLM - двунаправленная языковая модель - BiLM is used to process the sequence of words in the forward direction and the other in the backward direction. The backward LSTM captures information about the word and its context after it. The forward LSTM captures information about the word and its context before it.
big data - - большие данные Cтруктурированные или неструктурированные массивы данных большого объёма. Companies leverage big data analytics to derive insights from large volumes of information, improving decision-making processes.
bigram - - биграмма - -
Bilingual Evaluation Understudy BLEU - метрика BLEU Алгоритм автоматической оценки качества машинного перевода по сравнению с человеческим на основе совпадения n-грамм. The BLEU score evaluates machine translation quality by comparing it to human reference translations.
- - - - - -
Bilingual Evaluation Understudy score BLEU score оценка BLEU оценка BLEU Метрика для оценки качества текста, созданного машиной, по сравнению с эталонными переводами, созданными человеком. The source states that the BLEU indicator (bilingual evaluation understudy - used to estimate machine translation) has grown by an average of 11% for all languages supported by the system.
bitext - - параллельный текст; битекст Текст на одном языке вместе с его переводом на другой язык. The concept of the bitext shows certain similarities with that of the translation memory.
BLEU (Bilingual Evaluation Understudy) - - Алгоритм для оценки качества текста после машинного перевода - -
BLEU metric - - метрика BLEU Метрика для оценки качества текста, созданного машиной, по сравнению с эталонными переводами, созданными человеком. Higher BLEU scores indicate better translation quality.
BLEU Score BLEU score оценка BLEU оценка BLEU Метрика для оценки качества текста, созданного машиной, по сравнению с эталонными переводами, созданными человеком. The source states that the BLEU indicator (bilingual evaluation understudy - used to estimate machine translation) has grown by an average of 11% for all languages supported by the system.
bona fide linguistic theories - - настоящие лингвистические теории - This means that language models should be treated as bona fide linguistic theories.
chain of thought CoT - цепочка размышлений Метод улучшения способности к рассуждению больших языковых моделей путём подсказки им сгенерировать серию промежуточных шагов, которые приводят к окончательному ответу на многоэтапную проблему In the absence of E, the task is reduced to simply generating the improved translation without any intermediate reasoning chain or Chain of Thought (CoT).
сherrypicking - - выборка Процесс выбора наиболее подходящих или высококачественных данных для анализа, игнорируя менее значимые. Do I understand correctly that Pepperstein did is called cherrypicking and that’s part of your job, generate a lot of stuff and then pick something that fits you.
closed vocabulary - - закрытый словарь - The system uses a closed vocabulary for speech recognition.
comparable corpus - - сопоставимый корпус Тексты на одну тему на разных языках. A comparable corpus is a pair of corpora in two different languages, which come from the same domain.
computational linguistics CL КЛ компьютерная лингвистика Научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Computational linguistics explores how human language might be automatically processed and interpreted.
computer-aided translation CAT - автоматизированный перевод Перевод с помощью компьютерных инструментов. CAT tools combine MT with translation memory.
computer-assisted translation CAT - автоматизированный перевод Перевод с помощью компьютерных инструментов. CAT tools combine MT with translation memory.
concordance - - конкорданс Список контекстов, где искомая лексическая единица представлена в ее лексическом окружении и характеризуется набором статистических данных. -
concordance search - - поиск соответствий; поиск по соответствию; конкордансный поиск - -
concurrent translation - - параллельный перевод; одновременный перевод - -
content translation tool - - инструмент перевода контента - -
context length - - объем контекста Количество предыдущих слов (или токенов), которые модель может учитывать при создании нового текста или предсказании следующего слова. The context length available in some transformer models can impact their ability to understand and generate relevant outputs.
context match - - контекстное совпадение Более высокая степень совпадения, чем полное совпадение (100% совпадение), требующая в качестве дополнительного условия, чтобы на уровне 100% в выбранной базе переводов ТМ совпадали и два предшествующих сегмента и два последующих сегмента. The use of in-context or context matches helps to prioritise matches that you can feel more confident about, as they are preceded and followed by the same segments that precede and follow the 100% match in memory.
context-free grammars - - контекстно-свободные грамматики Частный случай формальной грамматики (тип 2 по иерархии Хомского), у которой левые части всех продукций являются одиночными нетерминалами (объектами, обозначающими какую-либо сущность языка (например: формула, арифметическое выражение, команда) и не имеющими конкретного символьного значения). Anyone who has dealt in simpler language models like 𝑛-grams or contextfree grammars will be impressed that this model is capable of incorporating not just longer dependencies within sentences, but across sentences.
contextual artificial intelligence CAI КИИ контекстуальный искусственный интеллект Тип ИИ, который понимает и реагирует на данные, учитывая окружающий контекст. Lilt добавил Contextual AI
contextually relevant sentence - - контекстуально релевантное предложение - With 117 million parameters, GPT-1 could generate contextually relevant sentences, demonstrating the potential of transformers in revolutionizing NLP tasks
continuous localisation - - непрерывная локализация Локализация, происходящая на всех этапах разработки продукта. -
controlled language CL КЯ Контролируемый язык Ограниченная версия естественного языка, созданная для выполнения определенных задач. Альтернативным вариантом является использование контролируемого языка (CL).
controlled vocabulary - - контролируемый словарь - A controlled vocabulary standardizes terminology across documents.
conversational agents - - разговорные агенты - The fourth article of the issue is titled “Diabetes and Conversational Agents: the AIDA Project Case,” in which the authors introduce their Artificial Intelligence Diabetes Assistant (AIDA). It consists of a text-based chatbot and a speech-based dialog system.
conversational AI - - разговорный ИИ - Conversational AI powers virtual assistants and chatbots.
corpus-based machine translation CBMT - корпусный машинный перевод - This course deals with corpus-based methods, that is, the large-scale study of written text, or spoken or signed utterances.
data augmentation - - аугментация данных - A fruitful approach to creating better models is to augment training datasets by generating additional synthetic data points through automatic data augmentation and deep generative models. In addition to manually designing such data augmentations, reinforcement-learning methods39 can discover a policy for automatic data augmentation that is flexible and agnostic of downstream models.
data cleaning - - очистка данных - -
data-driven machine translation DDMT - машинный перевод на основе данных - -
data-to-text model - - Модель преобразования данных в текст Система, которая преобразует структурированные данные (например, представленные в виде таблиц или баз данных) в читаемый человеком текст. Data-to-text generation converts information from a structured format such as a table into natural language.
database DB - база данных - -
dataset DS - набор данных; датасет - The training process begins with the collection of large datasets, which may include books, articles, websites, social media posts, and other forms of written communication.
decoder - - декодер Часть нейронной сети, которая, используя накопленную информацию о контексте исходного текста, последовательно формирует предложение на целевом языке. Decoder is a neural network which generates a target language string.
deep learning DL - глубокое обучение; глубинное обучение - -
deep learning techniques - - методы глубокого обучения Методы машинного обучения, основанные на искусственных нейронных сетях (нейросетях). Employing advanced deep learning techniques, the software turns text into lifelike speech.
deep neural networks DNN - глубокие нейронные сети - However, there remains many limitations of these LLMs when it comes to true language understanding, limitations that are a byproduct of the underlying architecture of deep neural networks.
dependency trees - - деревья зависимости Графовые структуры, показывающие синтаксические связи между словами в предложении. -
development dataset - - валидационный набор данных - -
dialogue act - - диалогическое действие - The dialogue act classifier determines the intent behind each utterance.
dictation - - голосовой ввод текста - Modern dictation systems use end-to-end neural networks for real-time speech-to-text conversion.
dictation system - - система речевого ввода текста - The latest dictation system integrates contextual awareness to improve punctuation accuracy in transcribed text.
disambiguation - - разрешение - Word sense disambiguation is critical for accurate machine translation of polysemous terms like 'bank'.
discriminative AI - - дискриминационный ИИ - Discriminative AI models excel at differentiating between various categories by analyzing labeled data.
distillation - - дистилляция Процесс упрощения модели, чтобы создать менее сложную и более быструю версию более объемной модели, сохраняя при этом ее производительность. Distillation is a process used to create smaller, efficient models that retain the performance of larger ones.
distributed training - - распределенное обучение - Distributed training refers to the process of training LLMs across multiple computing devices or processing units.
document alignment - - выравнивание документов; элайн Сопоставление документов на разных языках. Document alignment precedes sentence alignment.
document-level metric DLM ДУМ документно уровневая метрика Метрики, которые оценивают качество документов на уровне всего текста, а не отдельных предложений. Такие метрики учитывают контекст документа и оценивают, насколько хорошо он структурирован, логичен и понятен. Первая предложенная метрика на уровне документа, BlonDe (Jiang et al., 2022), добавляет измерение ошибок на уровне документа.
domain - - предметная область; домен - -
domain adaptation - - доменная адаптация - Domain Adaptation techniques help models generalize their knowledge from one area to another, enhancing their performance in new contexts.
domain knowledge - - предметные знания - Incorporating medical domain knowledge into the AI model improved its diagnostic accuracy by 15%.
domain-specific language - - предметно-ориентированный язык - A good domain-specific language simplifies interactions between the software and users.
dynamic quality framework DQF - динамическая структура качества Система оценки качества перевода и структура, разработанная организацией TAUS и помогающая оценивать качество перевода; отличается тем, что качество рассматривается не как статичная характеристика, а как динамичная, зависящая от контекста. Functional theories of translation, ISO standards, and the TAUS Dynamic Quality Framework (DQF) serve as the foundational pillars of TQM.
edit distance - - расстояние редактирования Метрика для измерения количества изменений, необходимых для преобразования одной строки текста в другую. -
edit realization rate ERR КРП коэффициент реализации правок; скорость реализации редактирования Доля предложенных исправлений, фактически включённых в финальный вариант текста. We quantify this property using Edit Realization Rate (ERR).
embedding - - эмбеддинг; векторное представление слов Вектор в виде массива чисел, который получается после преобразования текста языковой моделью; подход к моделированию языка и обучению представлений в обработке естественного языка. Word embedding techniques like Word2Vec represent words as dense vectors, capturing semantic relationships.
embedding model - - модель векторного представления; модель эмбеддинга - The embedding model converts both the input query and the retrieved documents into vector representations, or embeddings, to capture their semantic meaning.
empowered user - - опытный пользователь; уполномоченный пользователь - -
encoder - - кодировщик - Encoder is a neural network which processes the source language string to be translated.
encoder-decoder - - кодировщик-декодер Архитектура нейронной сети, кодирующей информацию в последовательность символов, используемую для анализа, перевода и других действий с текстом. They can outperform bespoke attention-based encoder-decoder models.
enterprise MT - - корпоративный МП - -
error annotation - - аннотирование ошибок - -
ethical issues - - этические вопросы Вопросы, связанные с моральными принципами и ценностями, которые возникают в различных сферах жизни Social research in the digital age raises new ethical issues.
evaluation criteria - - критерии оценки качества - If this is done, then perhaps the evaluation criteria differ, e.g. it might be fine for an MT system used for gisting (giving a general impression of meaning – see chapter 8 on MT for assimilation).
evaluation metric - - метрика оценки качетва - Evaluation Metrics. For hallucination evaluation on Fictitious, we adopt substring matching (Zouet al.,2023).
evaluation prompt - - оценочный запрос - This prompt first asks the model to analyze the similarity between the given conversation and the target role’s paragraphs from the corresponding test set in terms of language style. The analysis covers various aspects of language style.
example-based machine translation EBMT - машинный перевод на основе примеров Метод машинного перевода, который часто характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основной базы знаний во время выполнения перевода. Note too that SMT eventually overtook example-based MT.
extraction or keyphrase extraction - - извлечение ключевых фраз - Keyphrase extraction identifies important terms in a document.
extractive summarization - - экстрактивная суммаризация - Extractive summarization creates summaries by selecting existing sentences from the text.
fact-checking - - проверка фактов Процесс проверки информации на точность и достоверность. There is a separate team of fact-checkers which already has members.
few shot learning - - обучение с малым количеством примеров - Few Shot Learning empowers models to learn new tasks quickly based on only a limited number of examples.
few-shot prompt - - промпт с малым количеством примеров - It provides examples within the prompt to guide the model’s behavior and helps the model understand the format, tone, or structure of the desired output.
fine-tuning - - донастройка; тонкая настройка Донастройка — метод адаптации готовой языковой модели к специфическим задачам. Fine-tuning large pre-trained models if the Pro+ option is used.
fit-for-purpose translation quality - - качество перевода по принципу соотвествия задачам перевода - -
fluency - - беглость Cтремление к читабельности и естественности звучания переведенного текста на целевом языке. -
forward-translation - - буквальный перевод Пословный перевод, с сохранением фразового членения оригинала и подбором ближайшего эквивалента каждой лексемы. -
foundational model - - базовая модель - Foundational models serve as the basis for developing specialized AI systems.
full post-editing - - полное постредактирование - -
full postediting - - полное постредактирование - -
fully automatic high quality machine translation FAHQMT ПАВМП полностью автоматический высококачественный машинный перевод - -
fuzzy match - - нечеткое/неполное совпадение Частичное совпадение сегмента текста с базой ТМ. Fuzzy matches suggest similar translations.
game localisation - - локализация компьютерных игр Процесс адаптации компьютерной игры перед выходом на рынок другой страны/региона. -
generative adversarial network GAN - Генеративно-состязательная сеть Тип нейронных сетей, используемый для генерации новых данных путём соперничества между двумя моделями: генератором и дискриминатором. What is the main advantage of a human AI-trainer if there are Generative adversarial networks (GAN)?
generative AI - - генеративный ИИ Тип системы искусственного интеллекта (ИИ), способный синтезировать текст, изображения или комбинированный медиаконтент в ответ на подсказки. Генеративный ИИ использует генеративные модели, такие как большие языковые модели. Generative AI is a term used (and objected to by some critics) at the time of writing for generative tools based on LLMs.
generative AI model - - генеративная ИИ-модель - Instead of asking what the “appropriate” way is for generativeAI models to behave, perhaps a more important question is: how might generative AI models be developed to support more emanci-patory outcomes, and what do emancipatory outcomes from gen-erative AI look like?
generative AI tools - - инструменты генеративного ИИ - Generative AI technologies may be prompted by the user to produce minoritized language varieties, or may be designed to respond to the particular language variety of the in-put.
generative artificial intelligence GAI ГИИ генеративный искусственный интеллект - Generative artificial intelligence (GAI) plays an important role in various applications. In particular, applications such as Midjourney, Dall-E and Leonardo AI stand out in generating visual content from text input. This study investigates how these technologies can be used for children's book covers.
generative model - - генеративная модель - As a generative model, ChatGPT provides promising creations in a comprehensive, creative, and objective manner, therefore showing its potential to support summarization, synthesis, and creation-related works.
generative pre-trained transformer - - генеративный предварительно обученный трансформер - -
generic MT - - базовый МП - -
gisting - - общее понимание смысла текста Процесс суммирования основных идей текста, позволяющий уловить его суть. -
gradient descent - - градиентный спуск - It employs backpropagation and gradient descent optimization to update model parameters.
hallucination - - галлюцинация Явление, при котором модель генерирует ложные или несуществующие данные, которые не соответствуют обучающей выборке или реальности. Hallucination in AI occurs when a model generates plausible-sounding but incorrect or nonsensical content.
hard AI - - сильный ИИ - Hard AI is focused on having machines think like humans, while soft AI is focused on machines being able to do work that traditionally could only be completed by humans.
high-resource language - - высокоресурсный язык Языки, для которых доступно много ресурсов данных, что позволяет разрабатывать для них системы на основе машинного обучения. We provide our language learners with high-quality free language resources like the Language and Culture Blogs and Word of the Day service to support their daily habit.
- - - - - -
homophone error - - омофоническая ошибка - The homophone error in the transcript changed 'to' into 'too', altering the sentence meaning.
human evaluation - - оценка человеком; экспертная оценка - Human evaluation was needed, but this was expensive to organise
human evaluation metric - - метрика экспертной оценки - We conducted a human evaluation study comparing its judgments to those of human annotators.
human-centered AI HCAI - человекоориентированный ИИ - Researchers, developers, business leaders, policy makers, and others are expanding the technology-centered scope of artificial intelligence (AI) to include human-centered AI (HCAI) ways of thinking.
human-in-the-loop HITL - человек в процессе Подход в машинном обучении, который включает участие человека в процессе обучения и принятия решений. Human-in-the-Loop is a post-editing process.
human-like language - - человекоподобный язык - These models have significantly enhanced the capabilities of machines to understand and generate human-like language.
human-targeted translation edit rate HTER - коэффициент редактирования перевода человеком Измеряет объем редактирования, который человек должен был бы выполнить, чтобы изменить вывод системы, чтобы он точно соответствовал эталонному переводу. We also define a human-targeted TER (or HTER) and show that it yields higher correlations with human judgments than BLEU—even when BLEU is given human-targeted references.
human–AI collaboration - - взаимодействие ИИ и человека - Artificial intelligence (AI) provides considerable opportunities to assist human work. However, one crucial challenge of human–AI collaboration is that many AI algorithms operate in a black-box manner where the way how the AI makes predictions remains opaque.
hybrid AI - - гибридный искуственный интеллект - Hybrid AI combines different AI approaches to solve complex problems.
hybrid AI models - - гибридные модели искусственного интеллекта - Research Focus: Hybrid AI models, which combine multiple machine learning and deep learning techniques, could be developed to increase the accuracy and adaptability of predictive maintenance systems across heterogeneous networks. Additionally, ensuring interoperability between different 6G technologies and legacy systems is an important area for further development.
hybrid machine translation HMT - гибридный машинный перевод Интеграция разных методов машинного перевода. -
in-context learning ICL ОК обучение в контексте Обучение модели на основе контекста, предоставленного в запросах, что позволяет ей адаптироваться к конкретным задачам без дополнительного обучения. In-context learning allows models to adapt their responses based on examples provided within the same interaction.
in-domain data - - данные предметной области - In-domain data is crucial for training specialized AI models.
in-domain fine-tuning - - настройка в предметной области - In-domain Fine-tuning is the process of adapting algorithms to produce results related to specific business requirements.
incremental machine learning - - инкрементное (постепенное) машинное обучение - In the article, titled, “Continuous Detection of Concept Drift in Industrial Cyber-Physical Systems using Closed Loop Incremental Machine Learning” the authors propose an unsupervised, self-adaptive machine learning algorithm for continuous concept drift detection in industrial CPS.
industry engine - - специализированный модуль МП Программа, созданная для перевода специализированных текстов той или иной предметной области. -
inference - - инференс; предсказание Инференс относится к этапу, на котором обученная модель применяет усвоенные лингвистические правила и шаблоны для перевода нового, невидимого текста с одного языка на другой. In MT, inference refers to the phase where a trained model applies its learned linguistic rules and patterns to translate new, unseen text from one language to another.
instant translation - - мгновенный перевод - -
intelligent robot - - интеллектуальный робот - An intelligent robot assistant at the museum recognizes visitors' questions and adapts the tour based on their interests.
interactive demo - - интерактивная демонстрация - Interactive demos showcase AI capabilities.
interactive interface - - интерактивный интерфейс интерфейс для взаимодействия Interactive interfaces improve engagement.
interactive machine translation IMT - интерактивный машинный перевод - -
interactive translation prediction ITP ИТП интерактивное прогнозирование перевода Процесс использования машинного перевода в качестве основы для перевода с обратной связью от переводчика человека в реальном времени. -
interchange format - - формат обмена - -
internationalisation - - интернационализация Прием разработки продукта, упрощающий адаптацию продукта перед выходом на иностранные рынки. -
internet-based machine translation - - онлайновый машинный перевод - -
intersymbolic AI - - гибридный ИИ - This perspective piece calls for the study of the new field of Intersymbolic AI, by which we mean the combination of symbolic AI,whose building blocks have inherent significance/meaning, with subsymbolic AI, whose entirety creates significance/effect despite the fact thatindividual building blocks escape meaning.
intuitive pipeline - - интуитивно понятная последовательность Интуитивные конвейеры, которые настраивают триггеры, устанавливают этапы завершения кода и выполняют последовательные задания. In fact, the internal processing structure of some models seems to spontaneously develop an intuitive pipeline of representing parts of speech, followed by parsing, semantic analysis, etc.
keyword filtering - - фильтрация по ключевым словам - The second stage involves quality filtering to remove the low quality and unwanted data from the training corpus using some techniques such as the language filtering, statistic filtering and keyword filtering.
Kleene operators - - Операторы Клини Это операции с языками и регулярными выражениями, которые используют символ «звезда» (*) и символ «плюс» (+). Они используются для указания количества повторений определенного символа или группы символов. The star-shaped Kleene operator actually corresponds to the closure of the feed operation obtained from the concatenation.
knowledge base - - база знаний Организованная коллекция данных, информации и знаний, предназначенная для хранения и предоставления ответов на запросы. Может содержать статьи, руководства, FAQ и др. A comprehensive knowledge base ensures that AI systems have access to accurate and relevant information for decision-making.
knowledge distillation - - дистилляция знаний Дистилляция знаний — это способ обучения в первую очередь нейросетевых моделей машинного обучения, направленный на передачу знаний от модели-учителя к модели-ученику. -
knowledge engineering - - инженерия знаний Инженерия знаний — это процесс формализации и структурирования знаний экспертов для создания интеллектуальных систем. -
knowledge graph KG - граф знаний Графы знаний позволяют не только повысить точность работы таких систем, но и обеспечить объяснимость получаемых результатов. -
knowledge processing - - обработка знаний - The goal was to develop integrated systems, both in hardware and software, suitable for the com puter applications in the shift from "information processing" to "knowledge processing." At about the same time, expert systems, composed of two subsystems, the inference engine and the knowledge base, became a commonly used term in the AI arena, used almost as a synonym for AI.
knowledge-based system KB - система, основанная на знаниях Системы, основанные на знаниях в искусственном интеллекте, объединяют в себе возможности систем управления базами данных и технологию ИИ. In the context of the manufacturing industry, ChatGPT is intuitively associated with knowledge-based systems (KBS), as both systems share similar components.
labeled data - - размеченные данные - After pretraining, BERT undergoes fine-tuning on specific tasks with labeled data.
language combination - - языковая пара - -
language coverage - - спектр языков - -
language filtering - - разбиение данных по языкам - The second stage involves quality filtering to remove the low quality and unwanted data from the training corpus using some techniques such as the language filtering, statistic filtering and keyword filtering.
language modelling - - языковое моделирование - Language modeling is a fundamental approach to enhancingthe ability of machines to understand and process human language. It is a computational model that can learn and predict the possibilities of incoming (or missing) tokens.
Language Operations LangOps - языковые операции - Language operations include tasks like translation and text generation.
language pair LP ЯП языковая пара - -
language service provider LSP БП; ПК поставщик лингвистических услуг; поставщик переводческих услуг; бюро переводов; переводческая компания Организация, предоставляющая профессиональные услуги перевода и локализации. In 2019, Jochen Hummel, one of the developers of the Trados CAT tool in the 1990s, predicted that NMT would make CAT tools obsolete within a couple of years on the basis that NMT had reached human parity (with which we strongly disagree – see Läubli et al. (2018) and Toral et al. (2018)), adding that any delay would be down to LSPs not wanting to disrupt their business models (Marking 2019).
language universal - - языковая универсалия - -
large language models LLM БЯМ/БРМ большая языковая/речевая модель Языковая модель на основе нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя. LLMs power modern AI apps.
large multimodal model LMM - большая мультимодальная модель Система искусственного интеллекта (ИИ), которая способна одновременно обрабатывать и интерпретировать данные разных типов: текст, изображения, аудио и видео. Grounding Large Multimodal Model (GLaMM) is an end-to-end trained LMM which provides visual grounding capabilities with the flexibility.
large vocabulary continious speech recognition LVCSR - распознавание слитной речи на большом словаре - Modern LVCSR systems like Whisper can transcribe spontaneous speech with 50,000+ vocabulary words in real time.
latent semantic analysis LSA - латентный семантический анализ - Latent Semantic Analysis (LSA) is a technique for comparing texts using a vector-based representation that is learned from a corpus.
learning system - - обучающаяся система - The adaptive learning system personalizes educational content based on student performance metrics.
legacy data - - устаревшие, но используемые данные - Legacy data requires migration.
lemma - - лемма - In NLP pipelines, text normalization involves reducing inflected words to their base lemma (e.g., 'running' → 'run').
Less-is-Better (LiB) Model LiB - LiB-модель; модель на основе эффекта «меньше — лучше» - The LiB model can autonomously learn an integrated vocabulary consisting of subwords, words, and MWEs, which effectively reduces both the numbers of tokens and types.
Levenshtein distance - - расстояние Левенштейна - Levenshtein measures edit distance.
Leveraging - - применение Эффективное применение ресурсов. Leveraging existing data reduces costs.
lexical item LI ЛИ лексическая единица Единицы оригинального текста, имеющие эквивалент в переводе. -
light postediting - - легкое постредактирование - -
Likert scale - - шкала Лайкерта Психометрическая шкала, используемая в различных опросах и анкетах -
limited-vocabulary recognition - - распознавание речи в системе с ограниченным словарём - Limited-vocabulary recognition is used in medical devices for voice input of standard terms.
linear-bounded automaton LBA ЛОА линейно-ограниченный автомат - Linear-bounded automaton is theoretically able to recognize languages that are more complex than what conventional finite automata can handle.
linked data - - связанные данные - Linked Data principles enable AI systems to integrate heterogeneous datasets by semantically linking entities via URIs.
list processing language LISP LISP язык обработки списков - In the 1960s, the most popular programming language used in AI research was LISP. McCarthy developed the basic ideas during 1956–1958, and it quickly became a common language for AI programming. The main reason for its popularity was that learning could be incorporated in LISP as self-modifying programs.
LLM inference - - инференс LLM - Inference is the application of the trained model, where new, unseen data is fed into the model to obtain predictions or classifications based on the learned patterns.
LLM reasoning performance - - производительность LLM для рассуждений - TABLE III: Comparison of LLMs’ Reasoning Performance.
LLM uncertainity estimation - - уровень неопределенности БЯМ; оценка неопределенности БЯМ - Uncertainty estimation is one of the most popular strategies tomeasure how reliable and trustworthy of LLM gen-erations, which is especially important in applications with intensive Human-AI interaction wherehuman behaviors are largely affected by LLM out-puts
LLM-based chatbots - - чат-боты, основанные на больших языковых моделях (БЯМ) Инструменты искусственного интеллекта (ИИ), которые используют LLM для обработки естественного языка и генерации человекоподобных текстов. Obviously this is a concern for companies and as a consequence many firms prevent employees from using ChatGPT, Gemini, and other powerful LLM-based chatbots
LLM-powered recommendation system - - система рекоммендаций на основе БЯМ - To evaluate the performance of our LLM-powered recommendation system, we compare it against several state-of-the-art baseline models.
locale - - локаль Языковые и культурные настройки Locales define regional formats.
localisation - - локализация - -
localization - - локализация - -
localisation kit - - набор ресурсов для локализации Набор файлов и инструкций, который помогает подготовить продукт или контент для конкретного рынка или региона. The various files to be localised are usually added to a localisation kit along with instructions to send to MLVs and translators.
Localization Industry Standards Association LISA - Ассоциация по разработке стандартов в области локализации LISA Международная некоммерческая ассоциация, объединяющая клиентов и поставщиков услуг по глобализации и локализации. TMX (Translation Memory eXchange) was published by OSCAR (the Open Standards for Container/Content Allowing Re-use) special interest group from LISA (Localization Industry Standards Association) in 1997.
low-dimensional classification - - классификация низкой размерности; низкомерная классификация - Tested GPT-3 on a range of low-dimensional classification.
low-resource language LRL - малоресурсный язык; язык с ограниченным ресурсом Язык, для которого доступно ограниченное количество лингвистических данных и ресурсов для задач обработки естественного языка и машинного обучения. LRLs challenge MT systems.
machine Learning ML МО машинное обучение Обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Machine learning algorithms like Random Forest and XGBoost are widely used for predictive analytics in business.
machine learning model - - модель машинного обучения - The machine learning model was trained to detect fraudulent transactions with 98% accuracy.
machine learning program - - программа машинного обучения Программное обеспечение, использующее алгоритмы машинного обучения для анализа данных и принятия решений без явного программирования. ...if machine learning programs like ChatGPT continue to dominate the field of AI.
machine translated segment - - сегмент, переведенный с помощью МП - -
machine translation MT МП машинный перевод Автоматический перевод текста с одного естественного языка на другой, выполняемый с помощью компьютерной программы. -
machine translation engine MT engine - модуль/сервис машинного перевода - -
machine translation evaluation MTE ОКМП оценка качества машинного перевода - -
machine translation hit MT hit - совпадение из МП - -
machine translation match MT match - совпадение из МП - -
machine Translation model - - модель машинного перевода - -
machine translation output MT output - результат машинного перевода - -
machine translation post-editing MTPE - постредактирование машинного перевода - -
machine translation postediting MTPE - постредактирование МП - -
machine translation provider MT provider - поставщик машинного перевода - -
Machine Translation Quality Metric MTQM МКМП метрика качества машинного перевода Методы измерения точности и адекватности перевода машинными системами. Do the post-edited translations produced by LLMs lead to general quality improvements as measured by state-of-the-art MT quality metrics?
machine translation resource MT resource - ресурс для машинного перевода память перевода и/или другие языковые базы, на которые "опирается" программа выполняющая перевод -
machine translation result MT result - результат машинного перевода - -
machine translation segment MT segment - сегмент с машинным переводом - -
machine translation system MT system система МП система машинного перевода - -
machinery of transformational grammar - - механизм транформационной грамматики Механизм, который порождает совокупность грамматически правильных последовательностей и не порождает ни одной грамматически неправильной последовательности. In practice, there is often no clear line between engineering and science because scientists often need to invent new tools to even formulate theories: was Newton’s calculus engineering instead or science? The machinery of transformational grammar?
manual evaluation - - экспертная/ручная оценка перевода Это метод оценки качества перевода, при котором квалифицированные эксперты анализируют и оценивают переводы, обеспечивая более подробные и точные результаты, чем автоматизированные оценки. After completing the automated translation, we first conducted a manual evaluation to ensure accuracy.
many-to-one relationship - - связь "многие к одному" - -
masked-language modelling MLM - маскированное языковое моделирование - Masked-language modelling is a popular method for self-supervised learning of both natural language and biological sequences. The arrangement of atoms or amino acids (tokens) into structures to produce molecular and biological function is similar to how letters form words and sentences to define the meaning of a document.
match - - совпадение; соответствие В ТМ: cоответствие сегментов текста базе ТМ. -
maximum likelihood estimation - ММП метод максимального правдоподобия - The pretraining objective is typically based on maximum likelihood estimation, where T5 is trained to predict the target text given the source text.
maximum likelihood principle - - принцип наибольшей вероятности; метод наибольшей правдоподобности - We can make a principled choice between parameters—and thus theories—by choosing the one that makes the data most likely (maximum likelihood principle), although often including some prior information about plausible parameter values or penalties on complexity (e.g. Bayesian estimation).
meta prompting - - мета-запрос Процесс создания запросов, которые помогают системе лучше понять, как взаимодействовать и обрабатывать информацию. Meta prompting involves creating prompts that help optimize the behavior and efficiency of language models.
meta-language - - метаязык - -
metadata - - метаданные Описание свойств и характеристик информации, хранимой в системе. Document metadata (author, creation date) speeds up the search in corporate knowledge bases.
mistranslation - - неправильный перевод - -
model architecture MoE - архитектура модели Структура и взаимосвязи компонентов модели искусственного интеллекта, определяющие, как она обрабатывает данные и решает задачи. The model architecture determines how information flows and is processed, significantly affecting performance.
model driven development MDD - разработка, управляемая моделями - Ameller et al. [30], in their surveys, studied the degree of adoption of Non-Functional Requirements in the context of Model Driven Development (MDD).
model of strings - - текстовая модель - Virtually all of the structure we see in language can come from learning a good model of strings, not directly modeling the world.
model parameter - - параметр модели - Model parameters, such as coefficients in linear regression, determine its predictive ability.
model pruning - - прореживание модели - Model pruning involves eliminating parameters that have minimal impact on performance, thereby streamlining the model.
model training - - обучение модели - Model raining adjusts model weights.
model’s training set - - набор данных для обучения модели Обучающая выборка, набор структурированных данных, используемый для обучения модели в машинном обучении. Note that this specific example was not in the model’s training set—there is no possibility that Trump understands prime numbers.
morphological processing - - морфологическая обработка - -
MT developer - - разработчик системы машинного перевода - MT developers would likely start by feeding an engine huge quantities of previously translated words and phrases.
MT engine - - модуль/сервис МП - -
MT literacy - - грамотность машинного перевода - Vollmer (2020) and Ciribuco (2020) shows that vulnerable users (migrants and asylum seekers) can be empowered by MT and can acquire MT literacy.
MT output - - результат МП - -
machine translation postediting MTPE ПРМП постредактирование машинного перевода - -
machine translation post-editing MTPE ПРМП постредактирование машинного перевода - -
multidimensional quality metrics MQM - многомерная метрика качества Система оценки перевода, учитывающая разные аспекты качества, такие как точность, стиль и грамматика. Alan Melby’s influence in translation has been long and varied, from early work in computational linguistics, prompting the development of translation memory, to long interests in quality and standards leading to the development of MQM and advocacy work.
multilayered neural network - - многослойная нейронная сеть - The latter includes deep representation learning, particularly multilayered neural networks capable of identifying essential, compact features that can simultaneously solve many tasks that underlie a scientific problem.
multilingual large language model MLLM МБЯМ многоязычная большая языковая модель - Multilingual LLMs are beginning to show that they can outperform bespoke attention-based encoder-decoder models.
multilingual machine translation - - многоязычный машинный перевод - -
multimedia translation - - мультимедийный перевод Перевод вербальной и текстовой информации на язык, который предпочитает зритель или слушатель. Multimedia translation can be applied to various fields, including cinema, television, theatre, advertisement, audiovisual and mobile device communication.
multimodal dialogue - - мультимодальный диалог - These models are specifically designed to enhance multimodal dialogues, where both visual and textual information are important.
multimodal generation - - мультимодальная генерация - Multimodal generation models like DALL·E create images from text prompts while maintaining semantic consistency.
multimodal large language model MLLM ММЯ многофункциональная большая языковая модель - -
multimodal translation - - мультимодальный перевод - Multimodal MT uses context.
multitask learning MTL - многозадачное обучение - Multitask learning improves model efficiency by simultaneously training on sentiment analysis and named entity recognition with shared layers.
multitask prompt tuning MPT - многозадачная настройка промптов - Multitask prompt tuning enables a single language model to perform translation, summarization, and QA by learning task-specific soft prompts.
multivariate normal distribution - - многомерное нормальное распределение - A multivariate normal distribution applied to estimate the mean vector and covariance matrix of the underlying distribution using maximum likelihood estimation.
multiword expressions MWEs - многословные выражения - Despite subword tokenizers like Byte Pair Encoding (BPE) overcoming many word tokenizer limitations, they encounter difficulties in handling non-Latin languages and depend heavily on extensive training data and computational resources to grasp the nuances of multiword expressions (MWEs).
N-gram - - N-грамма Последовательность элементов. N-grams model language statistically.
named entities NE - именованные сущности Имена людей, названия организаций, книг, городов, и другие имена собственные. Translating Named Entities (NE), in particular named persons, locations and organizations, can benefit many natural language processing tasks.
named entity recognition NER - Распознавание именованных сущностей - Some of the most powerful features of these technologies include Named Entity Recognition (NER). This can identify important entities like names, organizations, locations, dates and times from text data.
narrow AI - - узкий ИИ - AGI, or strong AI, is best understood as the original goal of AI as a discipline [39], as opposed to many current practical AI systems, called narrow AI, capable of performing specific tasks (e.g., self-driving cars, face recognition technology, and checkers playing programs).
narrow domain - - узкая область Специфические области знаний или темы, на которых сфокусировано приложение или модель ИИ. However useful these programs may be in some narrow domains (they can be helpful in computer programming, for example, or in suggesting rhymes for light verse).
natural language - - естественный язык - Natural language processing (NLP) enables machines to understand and generate human-like text, powering chatbots and voice assistants.
natural language generation NLG ГЭЯ генерация естественного языка - The NLG system generates weather forecasts like 'Tomorrow will be sunny with a high of 25°C'.
natural language processing NLP ОЕЯ обработка естественного языка Общее направление искусственного интеллекта и математической лингвистики, изучающее проблемы компьютерного анализа и синтеза текстов на естественных языках. Now that the true difficulty of MT (and natural language processing (NLP) in general) had been revealed.
natural language processing model NLP NLP модель обработки естественного языка Компоненты искусственного интеллекта, которые помогают компьютерам Databases that implement machine learning algorithms and natural language processing models can browse online messages and social media posts to learn the latest trading sentiments for specific markets or determine a company's output value.
natural language query NLQ - запрос на естественном языке - To thrive in the future world of increasing natural language query, sites will have to have the answer to user questions readily available.
natural language technology NLT ТОЯ технология обработки естественного языка - NLT enables real-time translation of speeches, converting English 'Hello' to Spanish 'Hola' instantly.
natural language toolkit NLTK - набор инструментов для обработки естественного языка - NLTK provides tools for tokenization, splitting 'Natural Language Processing' into ['Natural', 'Language', 'Processing'].
natural language understanding NLU ПЕЯ понимание естественного языка - NLU systems classify user intents, like mapping 'Book a flight to Paris' to a travel booking action.
natural language-to-code generation - - генерация кода из естественного языка Это направление в программировании, где текст на естественном языке преобразуется в исполняемый код, позволяя пользователям без технических знаний создавать программное обеспечение. Natural language-to-code generation tools are making software development more accessible for non-programmers.
natural language–based API - - естественно-языковой программный интерфейс - To explore how multi-agent collaboration can mitigate such hallucinations, we propose an empirical testing approach that leverages Natural Language–Based APIs - specifically through the OVON (Open Voice Network) interoperability standard [10] and [11] - to facilitate seamless communication among different agent layers.
neural machine translation NMT НМП нейронный машинный перевод Подход к автоматическому переводу текста, основанный на использовании глубоких нейронных сетей. Neural Machine Translation (NMT) represents the leading approach to Machine Translation (MT).
neural network NN НС нейронная сеть Математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации биологических нейронных сетей. A three-layer neural network is well-known to be capable of approximating any computable function.
neural operators - - нейронные операторы - Neural operators learn representations invariant to discretization by learning mappings between function spaces. Neural operators are guaranteed to be discretization invariant, meaning that they can work on any discretization of inputs and converge to a limit upon mesh refinement. Once neural operators are trained, they can be evaluated at any resolution without the need for re-training. In contrast, the performance of standard neural networks can degrade when data resolution during deployment changes from model training.
neural style transfer NST НПС нейронный перенос стиля - NST transforms photos into Van Gogh-style art by combining content and style images.
neuro-symbolic AI - - нейросимволический ИИ - This paper is not the first calling for distinctions and combinations of dif-ferent kinds of AI (good old fashioned AI [41], neuro-symbolic AI and related notions [12,28,46], considering such combinations the most important AI chal-lenges [6]) and it certainly will not be the last.
next-sentence prediction NSP - предсказание следующего предложения - -
open parallel corpus OPUS ОПК открытый параллельный корпус Растущая коллекция переведённых текстов из интернета. -
Open Voice Interoperability Initiative OVON OVON инициатива OVON Инициатива открытой совместимости голосовых интерфейсов (Open Voice Interoperability Initiative) — это инициатива, направленная на создание стандартов и протоколов для взаимодействия различных голосовых помощников и устройств с голосовым управлением. The OVON framework’s universal NLP-based interfaces and structured JSON messages provide a transparent mechanism for transferring contextual information (e.g., disclaimers, warning fields) between agents
open-source neural machine translation OpenNMT - открытая система машинного перевода Открытая система машинного перевода, использующая методы машинного обучения. -
out-of-vocabulary word OOV - слово вне словаря Неизвестное модели слово. OOV words challenge NMT.
over-editing - - излишнее постредактирование Внесение ненужной (вкусовой) правки. -
overfitting - - переобучение - The model suffers from overfitting, achieving 99% train accuracy but only 50% on test data.
overgenerate - - сверхгенерация Ситуация, при которой модель генерирует избыточное количество ответов или вариантов, из которых многие могут быть нерелевантными. They either overgenerate (producing both truths and falsehoods, endorsing ethical and unethical decisions alike) or undergenerate (exhibiting noncommitment to any decisions and indifference to consequences).
parallel corpus - - паралелльный корпус; корпус примеров Коллекция текстов, каждый из которых переведён на один или несколько языков и сопоставлен на уровне предложения или фразы. Neural networks without a teacher are translated from languages for which there is no parallel corpus of texts.
parallel distributed processing PDP - PDP-модель; модель PDP - PDP models would occupy an intermediate level between symbol processing and neural hardware.
parallel processing - - параллельная обработка - -
parameter prm - параметр Настройки и переменные модели, которые определяют ее поведение и результат. A neural network’s parameters (weights and biases) are optimized during training to minimize prediction errors.
parameter efficient fine-tuning PEFT - тонкая настройка параметров эффективности - PEFT is a method of improving the performance of pretrained large language models (LLMs) and neural networks for specific tasks or data sets.
parsebank - - парсбанк Банк разобранных предложений "Parsebanks train parsers."
parser - - средство синтаксического анализа - -
parsing - - cинтаксический анализ; парсинг - Parsing the sentence 'The cat sat on the mat' identifies 'cat' as the subject and 'mat' as the object.
part-of-speech tagging POS tagging - разметка частей речи; частеречная разметка; POS-тэггинг - POS tagging labels words like 'run' as a verb in 'I run daily' but as a noun in 'a morning run'.
pause measurement PM ИП измерение пауз Функция, которая позволяет остановить измерение с целью сохранить в оперативной памяти последние данные. -
performance bottleneck - - узкое место производительности - One such issue is the performance bottleneck issues that arise during Input/Output (I/O) operations which slows down the overall performance of the model.
permutation - - перестановка - In the training process, rather than predicting the next word given the previous words in a fixed order, XLNet considers all possible permutations of the input sequence and models the probability of each permutation.
personally identifiable information PII ПДн персональные данные; личные данные пользователей; персональная идентифицирующая информация - Therefore, it is essential to undertake privacy redaction measures to remove personally identifiable information (PII) from the pre-training corpus.
phenomena of emergence - - феномен эмерджентности Свойство сложных систем, когда их поведение или характеристики не могут быть объяснены свойствами их частей. Over modern scientific history, many computational scientists have noticed phenomena of emergence
phonetic searching - - фонетический поиск - Phonetic searching finds 'Smith' and 'Smyth' as matches by analyzing sound patterns, not spelling.
phrase-based machine translation PBMT - фразовый машинный перевод - -
phrase-based statistical machine translation PB-SMT ФМП фразовый статистический машинный перевод Подход в системе машинного перевода, при котором текст разбивается не только на слова, но и на целые фразы. Phrase-based statistical machine translation (PB-SMT) has been the dominant paradigm in machine translation (MT) research for more than two decades.
phrase-structure trees - - деревья фразовых структур Форма представления построения фразы It is not controversial to state that human language is harder than that, so we could use phrase-structure trees.
physics-informed AI PIAI - ИИ, основанный на физике - Physics-informed AI refers to techniques that incorporate physical laws into AI models as a form of prior knowledge.
placeables - - подстановочные элементы Элементы для подстановки Placeables mark variables.
plugin - - плагин - The ChatGPT plugin 'Wolfram Alpha' adds computational knowledge to AI responses.
post-edit - - постредактировать Корректировать результат автоматического перевода -
postedit - - постредактировать Корректировать результат автоматического перевода -
post-edit analysis - - анализ постредактирования - -
post-edit modification PEM - изменения, внесенные в ходе постредактирования - -
post-editing PE ПР постредактирование Процесс проверки и исправления результата автоматического перевода для обеспечения точности, ясности и соответствия целевой аудитории Our results demonstrate that GPT-4 is adept at translation post-editing, producing meaningful and trustworthy edits to translations that help improve its general quality
postediting PE ПР постредактирование Процесс проверки и исправления результата автоматического перевода для обеспечения точности, ясности и соответствия целевой аудитории Thereby, post-editing neural machine translations remains an important exercise for their use in critical settings across the translation and localization industry
post-editing effort - - усилия, затраченные на постредактирование - -
post-editing of machine translation PEMT ПРМП постредактирование машинного перевода - -
post-editing of MT PEMT ПРМП постредактирование МП - -
post-editing work - - работа, выполненная в ходе постредактирования - -
post-editor - - постредактор - -
posteditor - - постредактор - -
post-processing - - постобработка - Post-processing smooths jagged edges in 3D-printed objects using AI-based mesh refinement.
postediting of machine translation PEMT ПРМП постредактирование МП - PEMT combines raw output from Google Translate with human corrections for publishable quality.
postediting of MT PEMT ПРМП постредактирование МП - -
pre-editing - - предварительное редактирование; предредактирование С целью подготовки материалов к автоматическому переводу. -
pre-processing - - предварительная обработка; препроцессинг - Pre-processing converts all text to lowercase and removes punctuation for consistent NLP analysis.
pre-trained language model PLM - предобученная языковая модель - The implementation and success of RNN-based “self-attention” and “Transformer-based” neural network architectures (Vaswani et al. 2017) have significantly contributed to the increased prevalence of pre-trained language models (PLMs) during the late 2010s.
pre-trained metric for automatic evaluation - - предварительно подготовленная метрика для автоматической оценки Метрики, обученные на данных. Pre-trained metrics evaluate quality.
predictive maintenance PdM - предсказательное /предиктивное/прогнозируемое обслуживание - It is stated in the recently published EU white paper that “Artificial Intelligence is developing fast. It will change our lives by improving healthcare (e.g., making diagnosis more precise, enabling better prevention of diseases), increasing the efficiency of farming, contributing to climate change mitigation and adaptation, improving the efficiency of pro duction systems through predictive maintenance, increasing the security of Europeans, and in many other ways that we can only begin to imagine.
prefix decoder architecture - - архитектура декодирования префиксов - The basic idea of prefix predecoding is to group the VLC's by their common prefixes. Fig. 2 shows an example of such a grouping.
pretrained model - - предобученная модель - Hugging Face's pretrained BERT model achieves high accuracy in NLP tasks without training from scratch.
primary data - - первичные данные Оригинальные данные исследования. Primary data ensures authenticity.
principle of least effort PLE - принцип наименьшего усилия - This article will present the 'Principle of Least Effort,' a general theory from cognitive science that can be applied to tokenizers.
probabilistic language model - - вероятностная языковая модель - As a probabilistic language model, ChatGPT's primary focus is to generate coherent and natural-sounding text by leveraging statistical associations between words in training data.
probabilistic method - - вероятностный метод - This response is generated using probabilistic methods that consider the likelihood of various words or phrases given the input context.
production language - - продуктовая среда - The model was deployed in production language, handling 10,000 requests per second with 99.9% uptime.
Professionally Verified Translation PVTQ - перевод профессионального уровня качества - -
prompt - - промпт; запрос Текстовая или визуальная команда, описывающая задачу, которую необходимо выполнить ИИ. The prompt 'Write a poem about the ocean' guides the AI to generate creative text.
prompt chaining - - цепочка промптов/запросов - Prompt chaining breaks complex queries into steps: first summarize the text, then translate the summary.
prompt decomposition - - разделение запроса - Recent at tempts at prompt decomposition toward solving complex, multi-step reasoning problems depend on the ability of the LLM to simultaneously decompose and solve the problem.
prompt engineer - - промпт-инженер; инженер запросов Специалист, который «умеет общаться» с искусственным интеллектом. A Prompt Engineer is a specialist in creating, enhancing, and optimising AI-generated text prompts to make sure they are precise, interesting, and applicable to diverse applications.
prompt engineering - - промпт-инжиниринг; техника подсказок; оптимизация запросов Процесс разработки и оптимизации текстовых запросов (промптов) для управления поведением искусственного интеллекта (ИИ). Prompt engineering refers to the design and optimization of queries sent to large language models to obtain the desired responses.
prompting - - промптинг Метод обучения нейронных сетей с помощью правильных вводных данных. Effective prompting techniques can significantly influence the performance of language models in generating desired outputs.
pronounciation lexicon specification PLS - спецификация лексикона транскрипций - PLS files define custom pronunciations, like 'GPT' as 'джи-пи-ти' for TTS systems.
proof of work PoW - доказательство выполнения работы Система защиты систем от DoS-атак или злоупотребления услугами I will give one example: there is Blockchain and Proof of Work.
protection of personal data - - защита персональных данных - The protection of personal data, especially in areas such as big data analysis and machine learning, and the ethical processing of this data is also an important element of the strategy. National standards are also being established on data security and artificial intelligence applications are developed in accordance with these standards.
public repository - - публичный репозиторий - The full code used in the experimental simulation, along with the 310 prompts and multi-agent responses, is available in the public repository.
quality assurance QA - контроль/проверка качества; обеспечение качества Процесс оценки качества выполненного перевода на соответствие различным критериям (терминология, стиль, формат и пр.) Most CAT tools have a dashboard giving users an overview of their ongoing projects and tasks, a project management view focusing on managing or taking part in projects, a QA view for quality analysis, and an editor view in which the translation editing takes place.
quality estimation QE - оценка качества перевода в отсутствие эталонного перевода - -
quality evaluation QE - оценка качества - QE measures output quality.
quantization - - квантование Процесс преобразования модели с плавающей точкой в более компактный формат с фиксированной точкой, что уменьшает ее размер и увеличивает скорость выполнения. Quantization techniques help reduce the memory footprint of models, facilitating deployment on resource-constrained devices.
query language - - язык запросов - You can use the special query language to get this history.
question clustering - - кластеризация вопросительных запросов - Question clustering: partition questions of a given dataset into a few clusters.
randomised segments - - случайно выбранные фрагменты текста - Castilho (2021) also shows that evaluation of randomised segments tends to yield better IAA than evaluation of whole texts or documents, partly because evaluators find this difficult.
raw data - - исходная информация Данные в базе, подлежащие обработке для предоставления информации пользователю A digital computer transforms raw data into useful information effortlessly.
raw machine translation RMT - "сырой" машинный перевод Машинный перевод текста до постредактирования. As error correction in post-editing is effectively similar to error annotation, there have been efforts to automate error analysis by comparing raw MT with post-edited MT.
raw output - - неотредактированный машинный перевод - -
re-skilling - - переподготовка - Re-skilling programs teach factory workers to program collaborative robots (cobots).
real- time retraining - - обучение в реальном времени - -
reasoning - - логические выводы; рассуждение - AI reasoning connects facts: 'All humans are mortal. Socrates is human → Socrates is mortal.
reasoning dataset - - датасет для рассуждений - Evaluation on multiple different reasoning datasets reveal that with our method, a 175 billion parameter LM (text-davinci-003) can produce competitive or even better performance, compared to its orders-of-magnitude larger succes-sor, GPT-4.
recall - - полнота - A recall of 90% means the model found 90% of all relevant cancer cases in medical scans.
Recall-Oriented Understudy for Gisting Evaluation ROUGE - метрика ROUGE; оценка краткого изложения с упором на полноту - ROUGE-1 compares machine-generated summaries to human references by counting overlapping unigrams like 'AI' and 'data'.
recognition accuracy - - точность распознавания - The speech recognition system achieves 95% accuracy for clear English dictation in quiet environments.
recurrent neural network language model RNNLM RNNLM рекуррентная нейросетевая языковая модель - The first neural language model was the recurrent neural network language model (RNNLM), which was developed in 2010. RNNLM was able to model the context of words and produce more natural-sounding text than previous models.
recurrent neural network RNN РНС рекуррентная нейронная сеть Искусственная нейронная сеть (ИНС), содержащая направленные обратные связи. RNNs process sequential data like text, predicting the next word in 'The cat sat on the...' as 'mat'.
recursive neural network model RNNLM - рекурсивная нейронная сеть - Recursive Neural Network Models Specialized in handling structured data, recursive neural network models shine when dealing with parse trees that elucidate the syntactic structure of sentences.
reference - - эталон; эталонный перевод - -
regular expression RegEx РВ регулярное выражение Инструмент для работы с текстом, который используется для поиска, сопоставления и манипулирования строками. "RegEx finds text patterns."
reinforcement learning RL ОП обучение с подкреплением Один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. RL trains game AI by rewarding winning moves (+1) and penalizing losses (-1), like in AlphaGo.
reinforcement learning from human feedback RLHF ОПЧОС Обучение с подкреплением на основе обратной связи от человека/отзывов Стратегия в машинном обучении, при которой модели обучаются не только на данных, но и через взаимодействие с людьми, получая обратную связь для улучшения решений. RLHF improves model behavior based on user input.
reinforcement learning using human feedback RLHF ОПЧОС Обучение с подкреплением на основе обратной связи от человека/отзывов Стратегия в машинном обучении, при которой модели обучаются не только на данных, но и через взаимодействие с людьми, получая обратную связь для улучшения решений. RLHF improves model behavior based on user input.
reinforcement learning with human feedback RLHF ОПЧОС Обучение с подкреплением на основе обратной связи от человека/отзывов Стратегия в машинном обучении, при которой модели обучаются не только на данных, но и через взаимодействие с людьми, получая обратную связь для улучшения решений. RLHF improves model behavior based on user input.
repository - - хранилище - -
representation learning - - обучение представлениям - Representation learning techniques automatically generate representations of data such as images, documents, sequences or graphs. These representations are typically dense, compact vectors, referred to as embeddings.
requirement engineering RE - инженерия требований - We believe that our findings could encourage the adoption of LLM, such as BERT, in Requirement Engineering (RE)-related tasks like the FR/NFR classification.
residual connections - - остаточные соединения - Residual connections prevent the vanishing gradient problem in deep neural networks by adding the input of a layer to its output, bypassing the layer's weights.
retrieval chain - - цепочка извлечения - The retrieval chain is a process used to find relevant information or evidence in a sequence for answering questions.
retrieval-augmented generation RAG - генерация с дополненной выборкой Технология, сочетающая в себе поиск релевантной информации в существующих хранилищах данных и генерацию текста с помощью языковых моделей для создания более точных и информативных ответов. RAG addresses key limitations of traditional models, including their reliance on static knowledge and potential inaccuracies in handling real-world data.
reward modeling - - обучение модели вознаграждения - -
rigorous monitoring - - тщательная проверка Cтрогий мониторинг, систематический контроль процесса достижения результатов, основанный на чётко определённых показателях эффективности и объективных способах их проверки. Detailed instructions, testing against ‘gold-standard’ test questions, and rigorous monitoring are also recommended to avoid blank or malicious work.
robotic process automation RPA - роботизированная автоматизация процессов - RPA controles repetitive tasks to improve efficiency.
robotic system RS - роботизированная система - The spread of robotic systems and automation in industry will accelerate production processes and reduce costs.
rotary positional embedding RoPE - позиционное эмбеддинговое вращение - RoPE allows the network to take into account the order of the input data and better capture the relationships between the different elements of the sequence
rule-based generation - - генерация на основе правил; правило-ориентированная генерация - Rule-based generation creates content following predefined rules.
rule-based machine translation RBMT МПНП машинный перевод на основе правил Обозначение технологий машинного перевода на основе лингвистической информации об исходном и целевом языках. Rule-Based Machine Translation or RBMT is a method of translating text from one language to another based on a set of linguistic rules and dictionaries.
sample training file - - тренировочные данные Основной набор данных, используемый для обучения моделей выполнению определенных задач, таких как классификация или предсказание. We prepared a sample training file containing diverse examples to help the model learn effectively.
scalable deployment - - масштабируемое развёртывание - Key strategies for scalable deployment of llms.
scraping data - - скрапинг Процесс автоматического сбора данных с веб-сайтов. Scraping data from various websites allows us to compile a comprehensive dataset for our research.
Search Engine Optimisation SEO - поисковая оптимизация комплекс мероприятий по внутренней и внешней оптимизации для поднятия позиций сайта в результатах выдачи поисковых систем по определённым запросам пользователей, с целью увеличения сетевого трафика, потенциальных клиентов и последующей монетизации этого трафика. This figure out much more than the importance of the Search Engine Optimisation.
secondary data - - вторичные данные Общедоступные данные, а не данные, которые организация собирает для себя. The interviews were accompanied by secondary data, including company accounts and reports.
segment - - сегмент Линейное членение речевого потока на составляющие отрезки, называемые сегментами. The CAT tool automatically split the document into smaller segments for easier translation.
segmentation - - сегментация - -
self-attention - - внутреннее внимание Тип механизма внимания, используемого в моделях машинного обучения. Self-attention allows each word in a sentence to interact with every other word, capturing long-range dependencies.
self-attention mechanism - - самовнимание; внутреннее внимание - The Transformer model, based on the self-attention mechanism, enabled parallelization and efficient handling of long-range dependencies.
self-supervised learning SSL - самообучение; самоконтролируемое обучение Режим обучения моделей, при котором задача обучения не требует дополнительной разметки и формируется исходя из внутренней структуры самих объектов, либо из базовых знаний об объектах. Modern Al models often use self-supervised learning to pre-train on large amounts of unlabeled text.
self-supervision - - cамообучение Парадигма машинного обучения, при которой модель обучается задаче, используя сами данные для генерации управляющих сигналов, а не полагаясь на внешние метки, предоставляемые человеком. Self-Supervision allows models to learn from unlabeled data, significantly reducing reliance on extensive annotation efforts.
semantic barriers - - семантические барьеры Коммуникативные помехи, возникающие вследствии неправильного понимания собеседником значения символов, используемых при общении -
semantic network - - семантическая сеть - The semantic network represents knowledge as a graph of interconnected concepts.
semantic search - - семантический поиск - Semantic search improves query understanding by considering context.
semi-structured Data - - полуструктурированные данные - Semi-structured data combines elements of structured and unstructured data.
sentence alignment - - выравнивание предложений Процесс определения соответствия между предложениями в параллельном корпусе. The sentence alignment tool matched source and target language sentences to create a parallel corpus.
sentiment AI - - чувствующий ИИ; cознающий ИИ - Scientists debate whether sentient AI is possible.
sentiment analysis - - сентимент-анализ; анализ тональности (текста) - By utilizing deep learning techniques and vast datasets, LLMs have demonstrated their proficiency in various language-related tasks, including text generation, translation, summarization, question answering, and sentiment analysis.
sequence-to-sequence seq2seq - модель преобразования многословных последовательностей Тип архитектуры нейронной сети, которая превращает одну последовательность данных в другую. The encoder-decoder architecture is common in sequence-to-sequence tasks like translation, where the encoder processes input and the decoder generates output.
sequential automaton - - секвенциальный автомат - The sequential automaton processes inputs one at a time.
shared resource - - общий ресурс - -
sign language machine translation - - машинный перевод языка жестов Автоматический перевод жестового языка с помощью технологий машинного перевода. The machine translation of sign languages has been possible, albeit in a limited fashion, since 1977.
silent speech interface SSI - интерфейс беззвучной речи - Silent Speech Interface allows communication for people who cannot speak.
simple knowledge organization system SKOS ПСОЗ простая система организации знаний - The library uses SKOS to organize its digital catalog.
simultaneous shipment simship - одновременный выпуск локализованных версий ПО Практика одновременного выпуска локализованных продуктов на разных рынках, языках или в разных регионах. Simship, or simultaneous shipment, was the aim for many software companies in the early 2000s, whereas now it’s the expectation.
slot - - слот - The system fills slots with relevant information during dialogue.
small models - - компактные модели - Small models are essential for deploying AI on mobile devices.
small-scale system - - маломасштабная система Мелкомасштабные встроенные системы, для которых поддерживаются только некоторые распространённые устройства ввода-вывода. This technique guarantees much better larval quality than the small-scale system.
social media - - социальная сеть Интернет-ресурсы, которые позволяют пользователям общаться, публиковать контент и взаимодействовать друг с другом. A social media message is unlikely to be reread after a couple of hours.
soft AI - - мягкий ИИ - Hard AI is focused on having machines think like humans, while soft AI is focused on machines being able to do work that traditionally could only be completed by humans. The main difference is that soft AI doesn’t necessarily involve machines thinking like humans.
Software as a Service SaaS - программное обеспечение как услуга - Many translation platforms now operate as Software as a Service (SaaS), allowing cloud-based access.
software localisation - - локализация программного обеспечения Процесс адаптации программного продукта к определенному языку, культуре и региональным особенностям. Effective software localisation ensures the interface adapts to cultural and linguistic preferences.
source language SL ИЯ исходный язык - The translator converted the text from the source language (Spanish) into English.
source text ST ИТ исходный текст Исходный текст, оригинал, текст, который подвергается переводу на другой язык. Adjust the level of formality in your translations based on the source text.
speaker-adaptive - - с настройкой на речь говорящего - Speaker-adaptive systems adjust to individual voice characteristics.
specialized corpora - - специализированные корпуса - Specialized corpora are used to train models for specific domains.
speech analytics - - обработка устной речи - Speech analytics helps companies improve customer service quality.
speech API SAPI - интерфейс прикладного программного обеспечения для голосовых технологий - Developers use SAPI to integrate voice commands into applications.
speech coding - - кодирование речевого сигнала - Efficient speech coding is crucial for voice communication systems.
speech Interpretation for speech recognition SISR - интерпретация речи для её распознавания - Advanced speech interpretation algorithms improve speech recognition accuracy.
speech recognition - - распознавание речи - Speech recognition technology has become an integral part of virtual assistants.
speech-to-text STT - преобразование речи в текст - Modern speech-to-text systems have significantly improved accuracy.
structured data - - структурированные данные Данные, организованные в строго определённой форме, часто в виде таблиц с фиксированными столбцами. Structured data is easier to analyze compared to unstructured data, which poses challenges due to its inherent variability.
stack - - стек В информатике - структура данных, которая работает по принципу "последний пришёл — первый вышел" (LIFO). Стек используется для хранения временных данных, таких как состояние вызовов функций, и управления ресурсами в некоторых алгоритмах. The development team used a modern tech stack, including Python and TensorFlow, for the NLP project.
standard AI-generated language ideology - - стандартная идеология языка, генерируемая ИИ Набор неявных убеждений, предубеждений, ценностей и мировоззрений, которые языковые модели искусственного интеллекта усваивают из огромных объемов данных, на которых они обучаются, и которые затем автоматически отражаются в генерируемом языке. Our taxonomy outlines issues of standard language ideology in AI-generated language, illustrating how popular language models and associated technologies grant more power to “standard” language varieties while opening opportunities for harm to speakers of mi-noritized language varieties.
state-of-the-art SOTA - передовой Термин, который используется для описания самого высокого уровня развития в какой-либо области: технологий, науки, искусства и т. д. GPT-4 is a state-of-the-art LLM, outperforming previous models in text generation and reasoning.
state-of-the-art (model) SOTA - SOTA-модель - To evaluate the performance of our LLM-powered recommendation system, we compare it against several state-of-the-art baseline models.
statistic filtering - - статистическая фильтрация - The second stage involves quality filtering to remove the low quality and unwanted data from the training corpus using some techniques such as the language filtering, statistic filtering and keyword filtering.
statistical language model SLM - вероятностная языковая модель - -
statistical machine translation SMT СМП cтатистический машинный перевод Разновидность машинного перевода, где перевод генерируется на основе статистических моделей, параметры которых являются производными от анализа двуязычных корпусов текста. Before neural models became dominant, Statistical Machine Translation (SMT, v relied on probability-based algorithms.
statistical metrics - - статистические метрики - Statistical metrics can handle lexical information and fail to deal with syntactic or semantic variations
statistical training - - статистический метод машинного обучения - Statistical training on huge datasets with billions of parameters will not help to reason logically.
stochastic automaton - - стохастический автомат - The stochastic automaton is used to model complex systems with probabilistic behavior.
stochastic gradient descent SGD - стохастический градиентный спуск - This optimization is typically achieved through an algorithm called stochastic gradient descent (SGD) or its variants, combined with backpropagation, which computes gradients to update the model’s parameters iteratively.
stochastic parrot - - стохастический попугай - This term describes the scenario where training data is repeated or a pattern-recognition exercise is undertaken without ‘any reference to meaning’.
streamline - - оптимизировать; модернизировать Упрощать, оптимизировать или улучшать процесс, систему или организацию, чтобы сделать их более эффективными и менее затратными по времени и ресурсам Streamline the way they interact with customers by better blending their website and the contact center
string patterns - - строковые шаблоны; шаблон строки Особый вид строк, который позволяет встраивать значения переменных или выражений непосредственно внутрь строки. Architectures generally vary in how well they capture computational classes of string patterns.
string-based metrics SBM ТМ метрики на основе строк; строковые метрики Метрики используют строковое представление текста для оценки и сравнения строк данных. -
strong AI - - сильный ИИ - Strong AI suggests that computer programs can actually think rather than only simulate thinking. Copeland (2004) believes strong AI machine should be built in the form of a man and will go through the same education and learning process as a human child.
structured chain of thought SCoT - структурированная цепочка рассуждений Набор сообщений, который последовательно отправляется модели, и к этому набору сообщений добавляются ответы модели The SCoT baseline uses the MQM annotation instructions
structured CoT SCoT - структурированная цепочка рассуждений Вариант цепочки рассуждений с заданной структурой или категориями. "System and User Prompts for Post-Editing with Structured Chain-of-Thought Baseline".
structured data - - структурированные данные - Structured data is organized in a predefined format, making it easier to analyze.
structured text ST - язык структурированного текста Язык программирования стандарта IEC 61131-3, основанный на тексте. Предназначен для программирования промышленных контроллеров и операторских станций. Any tags within the ST are also likely to be misplaced.
style-generative adversarial network StyleGAN - cтилизованная генеративно-состязательная сеть - StyleGAN is used to generate highly realistic images.
subword - - подслово Подслово — это последовательность стоящих подряд символов в слове. We acknowledge that codebook-learned tokenizers have several shortcomings. They are not as directly interpetible as subwords. They require training from scratch since most pretrained language models today use subword vocabularies instead.
sub-word encoding - - подсловесная кодировка Метод токенизации на подслова, который использует статистический анализ обучающего датасета для обнаружения общих символов внутри слова, таких как последовательные символы произвольной длины These are models of text that are trained on huge datasets of internet-based text to predict upcoming linguistic material (often at a sub-word but supra-character encoding).
Subject-Action-Object SAO - функция SAO - Subject-Action-Object (SAO) is an artificial intelligence (AI) function that breaks sentences into three main components: subject (who or what performs the action), action (verb or activity), and object (the subject receiving the action).
sublanguage SL ПЯ подмножество языка; субъязык Cпециализированный язык или жаргон, связанный с определенной группой или контекстом When you move from one sublanguage to another, however, the rules may change.
subscription video on demand SVOD ВпЗ абонентское видео по запросу Модель монетизации видеоконтента, при которой пользователи получают доступ к библиотеке контента за ежемесячную или годовую подписку Subscription Video-on-Demand (SVOD) is a method of monetizing video content where users are required to pay a recurring fee, either monthly or annually, to access a vast library of videos.
subsymbolic - - cубсимволический Метод обработки данных, который не использует символы, а представляет информацию на более низком уровне, например, через нейронные сети. Subsymbolic approaches often lead to data-driven models that excel in pattern recognition.
subword models NMT training - - обучение НМТ с использованием подсловных моделей Метод тренировки нейронных машинных переводчиков (НМТ), при котором применяется разбиение слов на более мелкие элементы (подслова), что позволяет лучше справляться с речевыми структурами и уменьшать проблему неучтённых слов - более эффективно обрабатывать языки с богатой морфологией и улучшать качество перевода. Subword models NMT training has proven to enhance the translation quality by effectively handling out-of-vocabulary words.
superintelligence - - cуперинтеллект - Bostrom (2014) put forward the Superintelligence hypothesis that new superintelligence would replace human if machine brains could transcend human brains.
supervised fine-tuning - - настройка с учителем - It was trained using a two-step process of unsupervised pre-training and supervised fine-tuning, a methodology that generated considerable interest in the academic and research community.
supervised function learning - - обучение с учителем - We first investigate meta-in-context learning on two artificial domains: a supervised function learning task, and a two-armed bandit task.
supervised learning - - обучение с учителем; контролируемое обучение Один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». Supervised learning algorithms require labeled training data.
supra-character encoding - - надсимвольная кодировка Процесс присвоения чисел графическим символам, что позволяет их хранить, передавать и преобразовывать с помощью компьютеров These are models of text that are trained on huge datasets of internet-based text to predict upcoming linguistic material (often at a sub-word but supra-character encoding).
surrogate models - - суррогатные модели - Another strategy for data labelling leverages surrogate models trained on manually labelled data to annotate unlabelled samples and uses these predicted pseudo-labels to supervise downstream predictive models. In contrast, label propagation diffuses labels to unlabelled samples via similarity graphs constructed based on feature embeddings.
symbolic AI - - символический ИИ Метод обработки данных, использующий символы и формальные правила для представления информации. This perspective piece calls for the study of the new fieldof Intersymbolic AI, by which we mean the combination of symbolic AI,whose building blocks have inherent significance/meaning, with subsym-bolic AI, whose entirety creates significance/effect despite the fact thatindividual building blocks escape meaning.
symbolic methodology - - символьная методология - Symbolic AI Methodology is an approach that focuses on explicitly representing knowledge using symbols and rules.
symbolic reverse engineering - - символический реверс-инжиниринг - The idea that word meaning can be extracted from how words are actually used in language is not exclusive to linguistic work in the empirical tradition, but in fact it can be traced back to Frege.
syntactical structures - - синтаксические структуры Расположение слов и фраз в предложении, следующее правилам синтаксиса на определенном языке. By 'syntactic structures', we mean large units of syntax, in particular noun phrases (NPs) and verb phrases (VPs).
synthetic data - - синтетические данные Данные, созданные алгоритмически, а не собранные из реальных источников. Synthetic data can be useful for training machine learning models when real data is scarce.
synthetic voice - - искусственный голос Компьютерно генерируемая речь, которая имитирует человеческую речь на основе письменного текста The synthetic voice can carry the listener beyond the bounds of grammatical equivalence into the textual and pragmatic equivalence of cohesion and coherence.
system prompt SP СЗ системный запрос Встроенные инструкции или настройки, которые определяют поведение и функциональность системы искусственного интеллекта. A system prompt can define the capabilities and constraints of the AI, ensuring it responds appropriately.
target language TL ЦЯ целевой язык; переводящий язык Термин, обозначающий тип языка, а именно тот язык, на который текст будет переводиться. Translate the text from source language to target language.
target text TT ПТ текст перевода Версия текста, переведённого с исходного языка на целевой. This metadata will have to be removed, leaving only the source and target text, before use for training MT systems.
task-based evaluation TBE - оценка качества на основе задач Оценка качества перевода с учётом задач, для которых будет использоваться результат. Это метод, при котором качество перевода измеряется по его способности помочь пользователям выполнять конкретные задачи, что дает более практическую оценку его полезности. To measure the success of a machine translation system, researchers often conduct task-based evaluations where users perform specific tasks using the translated content.
task-specific knowledge - - знания, необходимые для выполнения конкретной задачи - First, task-specific knowledge is typically well-documented and easily accessible, and many have already been codified and embedded in KBS.
taxonomy - - таксономия - The scheme presents a taxonomy of machine learning algorithms in the form of a hierarchical structure, not intended to be exhaustive.
temperature - - температура - Adjusting the temperature parameter affects the randomness of generated text.
template-matching techniques - - метод сопоставления шаблонов - Researchers relied on template-matching techniques in the early days of UAV objective identification. The system can identify recorded objects by comparing them to a template collection containing several thousand examples.
termbase TB - терминологическая база Система для хранения и управления терминами In legal translation, a termbase is essential for maintaining consistency, as it includes specialized legal terms and phrases that translators reference to ensure accurate usage across documents.
TermBase eXchange TBX - Формат TBX Cтандарт в формате XML для обмена терминологическими базами данных (terminology database), созданными в различных системах. In multilingual projects, utilizing the TermBase eXchange format allows different teams to easily share and integrate terminology resources, thereby enhancing collaboration and consistency across translations.
terminology management system TMS - система ведения терминологических баз данных Программное средство для обработки терминов, представленных в определенном формате Implementing and maintaining terminology management systems
test dataset - - тестовый набор данных Тестовый набор данных в контексте машинного обучения. Это часть набора данных, которая используется для оценки качества и производительности модели. After reviewing the model we can test the model on a test dataset.
test set - - тестовый набор - The test set is used to evaluate the performance of a trained model.
test suites - - тестовые наборы; тестовые комплекты Организованный комплект тестов, предназначенный для проверки определенной части или всей системы, приложения или кода. Software developers utilize test suites to systematically verify that their translation tools perform correctly under various conditions, ensuring reliability and dependability before releasing updates.
text analytics - - анализ текста - Text analytics applies statistical and machine learning techniques to text data.
text editor - - текстовый редактор - Find two short documents in your second language, instructing you how to complete a task within a software application that you can access, perhaps an office program or text editor.
Text Encodig Initiative TEI TEI TEI - The adoption of standard markup languages such as HTML (HyperText Markup Language), XML (Extensible Markup Language), and TEI (Text Encoding Initiative) has enabled researchers tо annotate and encode linguistic data systematically.
text summarization - - суммаризация текста - Text summarization algorithms create concise versions of long documents.
text-to-image generative systems - - конвертер текста в изображение - There are different text-to-image generative systems, but what they have in common is that textual inputs (prompts) are interpreted by a system before images are created. The systems are trained on large datasets of text-and-image pairs from the web (Abdallah & Estevéz, 2023). A prompt can lead to unexpected results, but at the same time the different models, such as Midjourney and OpenAI (DALL-E 2), provide tips on how to alter the style or format by adding specific terms.
Text-to-Speech TTS - преобразование текста в речь - Text-to-Speech technology enables written content to be spoken aloud.
thesauri - - тезаурус - Thesauri provide a structured list of synonyms and related terms.
token - - токен Минимальная единица кода, которая имеет смысл в контексте языка программирования A typical language model might be trained on hundreds of billions of tokens
tokenization - - токенизация Процесс разбиения текста на более мелкие единицы, называемые токенами. Эти токены могут представлять слова, части слов, или даже символы, в зависимости от метода токенизации. Tokenization is a crucial step in NLP, breaking down sentences into manageable pieces for processing by models.
tokenizer - - токенизатор - In natural language processing, a tokenizer is essential because it prepares the text for analysis by breaking it down into manageable pieces.
toolkits - - инструменты Набор библиотек и инструментов, используемых для разработки и тестирования моделей ИИ. There are various toolkits available for machine learning that provide pre-built functions for model creation.
Top-k sampling top-k Тор-р Top-k сэмплинг Метод генерации текста, при котором модель выбирает следующее слово только из определённого числа (k) наиболее вероятных вариантов. Тор-р служит для управления уровнем случайности и креативности при выборе следующего токена (слова или части слова) в генерируемой последовательности, обеспечивая баланс между предсказуемостью и разнообразием вывода. -
trained engine - - обученный модуль - -
trained model - - обученная модель - First, there is some ambiguity, in that as a model of language, the trained model is no longer “anything goes”—they are specific, implemented theories.
trained MT engine - - обученный модуль/сервис МП - -
training corpus - - обучающий корпус Обучающий корпус — большой набор текстов, используемый для обучения моделей A training corpus of 100k+ lines can take hours to train.
training data - - обучающие данные Набор данных, используемый для обучения модели машинного обучения, позволяющий ей распознавать шаблоны и принимать решения. High-quality training data is essential for effective machine learning.
training machine learning - - машинное обучение Процесс, в ходе которого система улучшает свою способность справляться с определёнными задачами на основе накопленного опыта, то есть данных. Training machine learning models involves feeding them large datasets to enable accurate predictions.
training set - - обучающая выборка - The training set should be representative and large enough for the model to generalize and apply effectively to new, previously unseen data.
training step - - этап обучения Это цикл в процессе машинного обучения, где модель обрабатывает данные и обновляет свои параметры для улучшения производительности и точности. Each training step involved adjusting the model's parameters based on the feedback received from the previous iteration.
transfer learning - - трансферное обучение - Transfer learning allows us to use the insights gained from one domain to enhance the model's performance in another.
transfer-based machine translation - - машинный перевод на основе трансфера - -
transformer - - трансформер Архитектура нейронной сети, разработанная для обработки логически связанных последовательностей данных, использующая механизмы внимания. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.
transformer kernel - - ядро трансформера Компонент архитектуры трансформера (Transformer), который отвечает за обработку последовательностей и использование механизма внимания This tutorial shows how to enable the DeepSpeed transformer kernel and set its different configuration parameters.
translatable assets - - переводимые ресурсы - Again, a first step in the localisation process is ideally translators and developers creating a target-language style guide and glossary of common terms, and then building a set of ‘translatable assets.
translation artifacts - - переводческие искажения Ошибки или несоответствия, возникающие в процессе перевода -
translation assets - - переводческие ресурсы - In the context of translation, "assets" refers to the resources and materials that are translated.
Translation Edit Rate TER КРП коэффициент редактирования перевода Подсчёт минимального числа правок, которые нужны для приведения машинного перевода в полное соответствие наиболее близкому эталонному переводу -
Translation Error Rate TER КОП коэффициент ошибок перевода Метрика, показывающая долю правок для улучшения перевода Translation Edit Rate (TER) [12] calculates machine translation accuracy by comparing the model-generated translation to a reference.
Translation Management System TMS - система управления переводческими проектами Программное обеспечение, которое помогает организовать и автоматизировать процессы перевода, локализации и управления контентом, предназначенным для разных языков и культур. Our company implemented a translation management system (TMS) to streamline workflows and improve collaboration among translators.
Translation Memory TM - база переводов; память переводов База данных, хранящая ранее переведенные сегменты текста для повторного использования и обеспечения согласованности. Using a translation memory helps reduce costs by reusing previously translated segments.
Translation Memory eXchange TMX - формат TMX Стандартный формат обмена данными из памяти переводов между разными САТ-инструментами. The linguists exported the data in Translation Memory eXchange (TMX) format to ensure compatibility with other
translation quality assurance TQA - контроль качества перевода Процесс проверки перевода на соответствие стандартам качества (грамматика, терминология, стиль и др.). Before final delivery, the team performed translation quality assurance (TQA) to check for errors and inconsistencies.
translation quality assessment TQA - контроль качества перевода Процесс проверки перевода на соответствие стандартам качества (грамматика, терминология, стиль и др.). Translation quality assessment (TQA) is a set of processes that ensures a translated piece of text is accurate, consistent, and reads well for the target audience.
translation quality evaluation TQE - оценка качества перевода Процесс, направленный на оценку и проверку точности, последовательности и общего качества перевода. -
translation quality estimation TQE - оценка качества перевода Процесс, направленный на оценку и проверку точности, последовательности и общего качества перевода. -
translation unit TU - единица перевода Единица хранения в базе переводов, состоит из исходного сегмента и его перевода Each entry, or segment, in the translation memory includes the original language, known as the 'source', and its translation, known as the 'target'. These pairs are called translation units, or 'TUs'.
translation, editing and proofreading TEP - перевод, редактирование и вычитка Этапы процесса перевода -
translation–editing–proofreading TEP - перевод-редактирование-вычитка Этапы процесса перевода However, as translation is the first step in this process, also known as TEP (translation-edition-proofreading).
Tree-of-Thought ToT - древо мыслей - Tree-of-Thoughts is a framework that guides a language model in exploring multiple reasoning paths during problem-solving. It employs a self-evaluation method a teach stage of reasoning to select the optimal choice.
Treemap - - деревьевидная карта - Treemaps utilize all available pixels to represent data.
Triple - - модель Triple - In RDF, a triple consists of subject, predicate, and object.
truecasing - - восстановление регистра букв Автоматическое исправление регистра текста (например, преобразование всех заглавных букв в нормальный регистр) The NLP tool applied truecasing to correct the capitalization of words in the machine-translated text.
tuning tun - настройка; калибровка Процесс подбора параметров модели для ее оптимизации на поставленной задаче Hyperparameter tuning involves adjusting learning rates or batch sizes to improve model performance.
Turing test - - тест Тьюринга - The Turing test measures a machines capability to have a conversation with a subject that is indistinguishable from that of a human conversing in its place.
type-token ratio TTR - тип-токен отношение; показатель лексического разнообразия текста Лингвистическая метрика, измеряющая разнообразие лексики в тексте (отношение количества уникальных слов к общему числу слов) A low type-token ratio (TTR) may indicate repetitive language, while a high TTR suggests lexical diversity.
ultra-low latency - - сверхнизкая задержка - Ultra-low latency and high resilience are some of the most notable features that the 6G networks are pursuing, especially in mission-critical applications.
under-editing - - недостаточное постредактирование Пропуск ошибок в автоматическом результате перевода -
underediting - - недостаточное постредактирование Пропуск ошибок в автоматическом результате перевода -
undergenerate - - недогенерация Ситуация, при которой модель генерирует недостаточное количество ответов или вариантов, что приводит к упущению важной информации. They either overgenerate (producing both truths and falsehoods, endorsing ethical and unethical decisions alike) or undergenerate (exhibiting noncommitment to any decisions and indifference to consequences).
unedited machine translation output UEMT output - результат автоматического перевода без постредактирования - -
Unicode UTF-8 - Юникод Универсальный стандарт кодирования символов, предназначенный для представления всех языков мира Unicode is a character encoding standard that assigns a unique code point to every character.
Unicode Transmission Format 8 UTF-8 UTF-8 формат передачи Unicode 8 Распространённый стандарт кодирования символов Unicode standard: normalise all characters to Unicode UTF-8 NFC (see chapter 2 for a discussion on these formats).
unigram - - униграмма Отдельное слово или единица, которое рассматривается как самостоятельная единица -
Unique Hard Attention UHAT - трансформер, использующий однозначный механизм внимания (UHAT) - Literature proposes a new hard attention mechanism Unique Hard Attention (UHAT), and constructs the Boolean circuit to recognize AC language.
unstructured data - - неструктурированные данные Данные, которые не имеют заранее определённой структуры, такие как текстовые документы, изображения, видео или аудио. Для их обработки часто требуются сложные методы, такие как машинное обучение. Unstructured data includes emails, social media posts, and videos.
unsupervised learning - - обучение без учителя; неконтролируемое обучение; самообучение Один из способов машинного обучения, при решении которого испытуемая система спонтанно обучается выполнять поставленную задачу, без вмешательства со стороны пользователя The training process itself revolves around a technique known as unsupervised learning, where the model learns to predict the next word in a sequence given the preceding context.
Unverified Translation UVTQ - результат автоматического перевода без постредактирования - -
use case - - сценарий использования; вариант использования; прецедент использования - -
user interface Ul - пользовательский интерфейс - These are integrated within a single user interface.
user preference modeling - - моделирование предпочтений пользователей - Developing methods to effectively combine the semantic insights derived from LLMs with traditional user preference modeling techniques.
user prompt UP ЗП запрос пользователя; пользовательский запрос Входные данные или инструкции, предоставленные пользователем системе искусственного интеллекта для получения ответов или выполнения задачи A user prompt initiates interaction with an AI, guiding the system in producing a specific response.
user-friendly - - дружелюбный (интерфейс / инструмент) - By breaking down barriers and providing user-friendly tools, democratization empowers diverse communities to leverage the power of AI to solve problems and drive innovation.
user-generated content UGC - пользовательский контент Контент, создаваемый пользователями (отзывы, комментарии, посты в соцсетях и т. д.), а не компанией. UGC offers a real and unfiltered perspective of a product or service, which can be more trustworthy than traditional advertising.
utterance - - искомое распознанное слово/фраза - The types of OVON events of most interest here are the “utterance”, which sends a user input to different agents, and the “whisper”, which provides additional information between agents about the context of an utterance and direction of what the receiving agent is supposed to do with the utterance.
variational autoencoders VAEs - вариационные автокодировщики - Generative AI systems can employ different techniques like Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), or autoregressive models to achieve the desired generation capabilities.
vector database - - векторная база данных - Vector databases store the embeddings of the data for retrieval and similarity research and help to add knowledge to the AIs like long-term memory.
vector DB - - векторная база данных База данных, оптимизированная для хранения и поиска векторных представлений данных. Companies utilize a Vector DB to perform efficient similarity searches based on high-dimensional embeddings.
vector search - - векторный поиск Метод получения информации, при котором документы и запросы представляются как векторы вместо обычного текста. Vector search methods leverage embeddings to find the closest matching data points in high-dimensional spaces.
verbalize-based estimation - - оценка на основе вербальных вычислений - verbalize-based estimation that instructs LLMs to provide a confidence score along with the answer.
vertical adaptation - - cпециализированная адаптация/обучение МП - -
vertical MT - - специализированный МП - -
vision-language pre-trained model VL-PTM - предобученная визуально‑текстовая модель - -
visual bias - - визуальное искажение - People tend to see inaccurately at great distance and sometimes have visual hallucinations. On a virtue reliabilist account, visual biases reduce the truth conduciveness of vision and therefore make it less virtuous.
voice recognition engine - - модуль распознавания голоса - The voice recognition engine processes audio input to identify commands.
voice recognition system VRS СРР система распознавания голоса - The voice recognition system accurately identifies speakers.
voice recognizer device - - устройство распознавания голоса - Voice recognizer devices are commonly used in smart homes.
wave algorithm - - волновой алгоритм - The wave algorithm efficiently searches for paths in a grid.
Weak AI - - слабый ИИ - Weak AI means machines can act as if they are intelligent and machines can simulate every aspect of intelligence that can be precisely described.
weakly supervised learning - - слабо контролируемое обучение - Weakly supervised learning leverages imperfect, partial or noisy forms of supervision, such as biased or imprecise labels, to train AI models.
web-based - - веб-интерфейсные, облачные - -
web-mining - - веб-майнинг Использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете State-of-the-art Neural Machine Translation (NMT) models, trained on web-mined parallel corpora suffer from reliability problems even for higher resource language pairs
website localisation - - локализация веб-сайта Процесс адаптации сайтов для конкретной аудитории, с учетом языка, культуры и местных особенностей Website localization involves adapting a website to fit the linguistic, cultural, and technical needs of a specific target market.
Windowing - - метод скользящего окна - The windowing method is a transformation algorithm that generates a data set from members of a time series that can serve as a training set for building a prediction model.
word embeddings - - эмбеддинги слов; векторное представление слов - A fixed-size vector of real numbers representing a discrete object (such as a word) is called an embedding of that object.
Word2Vec - - технология Word2Vec - Word2Vec technology uses neural networks to predict words from context and extract their meaning.
workbench - - рабочая среда Это инструменты и платформы, которые предоставляют разработчикам и переводчикам все необходимые функции для работы над проектами, включая редакторы, базы данных и анализаторы. In a technological or research context, workbenches refer to environments equipped with tools and resources for development, testing, and experimentation, often involving programming or machine learning tasks.
workflow - - рабочий процесс; технологический процесс - -
working language - - рабочий язык - -
Workshop on Machine Translation WMT - Главная ежегодная конференция по исследованиям в области машинного перевода - IWSLT sits alongside the Workshop on Machine Translation (WMT) as the most prestigious competitions in the space.
workstation - - рабочая станция; автоматизированное рабочее место - -
XML Localisation Interchange File Format XLIFF - формат файла для локализации на основе XML Это стандарт, используемый для хранения и обмена данными для локализации программного обеспечения. Он позволяет разработчикам легко извлекать и изменять строки текста для разных языков. This format is used for managing and storing localization data in XML format, facilitating the translation of software, websites, or applications by clearly defining strings and their translations.
zero redundancy optimizer ZeRo - технология оптимизации памяти для крупномасштабного распределенного глубокого обучения - ZeRO partitions the model states across data-parallel processes, eliminating the need for replication of model parameters, which in turn reduces memory usage and communication overhead during training.
zero shot - - обучение без примеров Подход в машинном обучении, позволяющий моделям учиться без прямого опыта с объектами или языками Throughout this work, we refer to the postediting task in the above zero-shot CoT setting as post-editing with CoT and the setting without E as post-editing without CoT.
zero shot learning - - обучение без примеров Это метод, при котором модель обучается решать задачи или предсказывать результаты без какой-либо прямой предварительной подготовки на данных для этой задачи. Zero Shot Learning enables models to perform tasks without having seen examples during training, showcasing their flexibility.
zero-shot extraction - - метод извлечения данных без обучения на примерах - Zero-shot extraction refers to the ability of an AI model to extract relevant data from text without prior training on specific examples or annotations.
zero-shot hallucination detection - - обнаружение галлюцинаций с первой попытки - We propose a novel AGSER approach for zero-shot hallucination detection.
 

В разработке словаря принимали участие:


 

Студенты Российского государственного педагогического университета им. А. И. Герцена:
Белоусова Елизавета, Бойкова Елизавета, Гореленко Иван, Коваль Игорь, Мацкевич Александра, Митрофанова Ксения, Осипова Анна, Прокофьева Татьяна, Царева Виктория, Шарешик Денис, Дмитриева Ксения, Загаевский Артём, Мальмаков Владислав, Маныч Алина, Петрова Анастасия, Проворова Кристина, Полтавец Глеб


 

Студенты Санкт-Петербургского государственного университета:
Елизавета Загородняя, Александра Богомолова


 

Студенты Санкт-Петербургского государственного экономического университета:
Глущенко Полина, Долгошей Александра, Жаданова Мария, Пузанов Владислав, Денисова Виктория, Долгушина Алина, Интизарова Мария, Кочетков Степан, Царев Кирилл, Яковлева Полина


 

Студенты Санкт-Петербургского политехнического университета Петра Великого:
Жербин Евгений, Игнатова Софья, Исакжанова Кристина, Колосова Милана, Котова Александра, Краснобаева Элина, Крутова Арина, Кустова Анна, Лёвина Екатерина, Мыльева Анастасия, Ненайдина Алёна, Ольховская Дарья, Панина Ульяна, Паутова Ирина, Подобед Анастасия, Рахимов Шерзодбек, Филиппова Анастасия