Терминология ИИ и БЯМ

Словарь по ИИ

Словарь по БЯМ

Термин Абб.(англ.) Абб.(рус.) Перевод Значение Источник перевода Контекст
Advanced Multi-Lingual Capabilities Продвинутые мультиязычные возможности Способность ИИ эффективно работать с текстами на нескольких языках. Переведен самостоятельно "...leveraging LLMs for post-editing could be opportune owing to the advanced multi-lingual understanding capabilities of latest LLMs..."
Adversarial Attacks Состязательные атаки Злонамеренное манипулирование входными данными модели машинного обучения с целью заставить ее выдать неправильные предсказания. Multitran Adversarial attacks pose challenges to AI systems by intentionally introducing misleading input to exploit vulnerabilities.
Affordances Предполагаемое назначение Свойства объекта или среды, которые подсказывают пользователю, как взаимодействовать с ним (например, кнопка предполагает нажатие). Multitran The affordances of the new software interface allow users to intuitively navigate through features without extensive training.
Agile development cycle Гибкий цикл разработки Методология разработки программного обеспечения, основанная на итеративном подходе, коротких циклах разработки и быстрой адаптации к изменениям. Переведен самостоятельно The agile development cycle promotes iterative progress and collaboration, making it easier to adapt to changing requirements.
AI trainer Тренер ИИ Специалист, который обучает модели искусственного интеллекта, подбирая данные и настраивая алгоритмы. Переведен самостоятельно In Yandex they have a special name for this kind of job: AI trainer.
Anti-Plagiarism Антиплагиат Технологии или системы, предназначенные для выявления заимствованных текстов и предотвращения несанкционированного копирования. Переведен самостоятельно As a result, I wrote a scientific paper, passed the "Anti-Plagiarism" check.
Artificial General Intelligence AGI ОИИ Общий искусственный интеллект — это тип искусственного интеллекта, который соответствует или превосходит когнитивные способности человека в широком спектре когнитивных задач. Это контрастирует с узким ИИ, который ограничен конкретными задачами. Переведен самостоятельно The concept of Artificial General Intelligence remains a topic of debate, with researchers envisioning machines that possess human-like cognitive abilities.
Artificial Narrow Intelligence ANI ИУИ Искусственный узкий интеллект - это тип искусственного интеллекта, в котором алгоритм обучения создается для выполнения единственной функции. Переведен самостоятельно Artificial Narrow Intelligence is widespread today, with systems designed to perform specific tasks like language translation and speech recognition.
Artificial Super Intelligence ASI ИСИ Искусственный сверхинтеллект - форма ИИ, способная превзойти человеческий интеллект, проявляя когнитивные способности и развивая собственные навыки мышления. Переведен самостоятельно Artificial Super Intelligence refers to a level of IQ far surpassing that of the brightest human minds, leading to potential ethical implications.
Attention Внимание ИИ — это ключевой механизм в нейронных сетях, особенно в архитектуре Transformer, который позволяет модели фокусироваться на наиболее важных частях входных данных при обработке информации. Переведен самостоятельно Attention mechanisms allow models to focus on relevant parts of the input, improving their understanding of context.
Authorization Авторизация Процесс проверки прав пользователя на доступ к ресурсам или выполнению определённых действий в системе. Переведен самостоятельно A Russian number cannot be used, as you won't receive the authorization code.
Autocomplete Автодополнение Функция, автоматически завершающая ввод текста на основе предсказаний модели, часто используется в поисковых системах и текстовых редакторах. Context Reverso It summarizes the standard arguments in the literature by a kind of super-autocomplete.
Automatic evaluation Автоматическая оценка Процесс оценки качества работы системы или модели ИИ без вмешательства человека, часто с использованием программных метрик. Переведен самостоятельно In educational settings, automatic evaluation systems provide immediate feedback to students, enhancing the learning experience.
Automatic evaluation metrics AEMs МАО Метрики автоматической оценки Показатели (например, BLEU, ROUGE), используемые для автоматической оценки производительности систем машинного перевода или обработки текста. Академик Researchers often rely on automatic evaluation metrics to assess the performance of machine learning models efficiently.
Automatic Post-Editing APE АПР Автоматическое постредактирование Процесс автоматического исправления ошибок в машинном переводе с помощью нейросетей или других моделей. Переведен самостоятельно This suggests that GPT-4 could aid in automatic post-editing with considerably greater interpretability.
Automatic speech recognition ASR АРР Автоматическое распознавание речи Технология преобразования устной речи в текст с использованием алгоритмов машинного обучения. Академик With advancements in automatic speech recognition, virtual assistants can now understand and process natural language more accurately.
Back-propagation Обратное распространение ошибки Алгоритм обучения нейронных сетей, при котором ошибка на выходе передаётся обратно через сеть для корректировки весов. Multitran The back-propagation algorithm is essential for training neural networks, allowing them to adjust weights based on errors made during prediction.
Benchmark Тест производительности Стандарт или набор тестов, используемый для сравнения производительности систем ИИ. Multitran We demonstrate gains on translation quality over best systems from WMT-22 across a number of language pairs on the WMT-22 benchmark.
Big data Большие данные это структурированные или неструктурированные массивы данных большого объёма. Переведен самостоятельно Companies leverage big data analytics to derive insights from large volumes of information, improving decision-making processes.
Blockchain Блокчейн Децентрализованная цифровая книга, которая записывает транзакции в цепочке блоков, обеспечивая безопасность и прозрачность. Академик I will give one example: there is Blockchain and Proof of Work.
Chaining Цепочка, чейнинг Метод, при котором результаты одной задачи передаются в качестве входных данных для другой задачи, что позволяет создать последовательную цепь операций. Википедия Chaining refers to the practice of linking multiple model outputs to achieve more complex tasks or information retrieval.
Chatbot Чат-бот Программное приложение, использующее алгоритмы обработки естественного языка для взаимодействия с пользователями через текст или голосовые интерфейсы. Переведен самостоятельно In 2016, for example, Microsoft’s Tay chatbot...
Cherrypicking Выборка Процесс выбора наиболее подходящих или высококачественных данных для анализа, игнорируя менее значимые. Переведен самостоятельно Do I understand correctly that Pepperstein did is called cherrypicking and that’s part of your job, generate a lot of stuff and then pick something that fits you.
Context Length Объем контекста - это количество предыдущих слов (или токенов), которые модель может учитывать при создании нового текста или предсказании следующего слова. Переведен самостоятельно The context length available in some transformer models can impact their ability to understand and generate relevant outputs.
Convergence Конвергенция процесс сближения разнородных электронных технологий в результате их быстрого развития и взаимодействия. Академик In machine learning, the convergence of training algorithms indicates that the model is approaching optimal performance.
Data Contamination Загрязнение данных Наличие в обучающих данных примеров, совпадающих с тестовыми, что может исказить результаты. Переведен самостоятельно We cannot rule out the possibility of data contamination, even on the WMT-22 test sets.
Database DB База данных - Организованная система для хранения, управления и обработки данных Переведен самостоятельно A traditional database often handles structured data, while newer technologies manage unstructured data more effectively.
Decoder Декодер Часть архитектуры нейронной сети, преобразующая внутреннее представление данных обратно в выходной формат (например, текст в машинном переводе). Переведен самостоятельно The decoder in a sequence-to-sequence model translates encoded information into comprehensible output, such as text or speech.
Deep learning Глубокое обучение Раздел машинного обучения, использующий многослойные нейронные сети для обработки и анализа больших объёмов данных. Переведен самостоятельно Deep learning techniques have revolutionized fields like image recognition and natural language processing by allowing models to learn from vast amounts of data.
Discriminative AI Дискриминационный ИИ ориентированы на анализ полученной информации и классификация этой информации в заранее определенные категории. Другими словами: они «дискриминируют» данные по определенным заранее определенным критериям. Яндекс Переводчик Discriminative AI models excel at differentiating between various categories by analyzing labeled data.
Distillation Дистилляция Процесс упрощения модели, чтобы создать менее сложную и более быструю версию более объемной модели, сохраняя при этом ее производительность. Википедия Distillation is a process used to create smaller, efficient models that retain the performance of larger ones.
Domain Adaptation Доменная адаптация - обучение модели на данных из домена-источника (source domain) так, чтобы она показывала сравнимое качество на целевом домене (target domain). Обзор основных методов Deep Domain Adaptation (Часть 1) Domain Adaptation techniques help models generalize their knowledge from one area to another, enhancing their performance in new contexts.
Edit Distance Редакционное расстояние Метрика для измерения количества изменений, необходимых для преобразования одной строки текста в другую. Multitran We find that the above results hold true across different metrics such as edit distance.
Edit Realization Rate ERR КРП Коэффициент реализации правок Доля предложенных исправлений, фактически включённых в финальный вариант текста. Переведен самостоятельно We quantify this property using Edit Realization Rate (ERR)...
Embeddings Векторные представления, эмбеддинги общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам (и, возможно, фразам) из некоторого словаря векторов для значительно меньшего количества слов в словаре. Википедия: Векторное представление слов Embeddings are fundamental in machine learning, representing the semantic meaning of words or phrases in vector space.
Encoder Кодер Часть нейронной сети, преобразующая входные данные в компактное представление (например, текст в векторные признаки). Переведен самостоятельно An encoder compresses input data into a lower-dimensional representation, facilitating efficient information processing in neural networks.
Error Span Диапазон ошибки Часть текста, содержащая ошибку перевода. Multitran Are LLMs capable of modifying human annotated translation error spans during the postediting step?
Explainable AI xAI Объяснимый ИИ Подход в разработке ИИ, который делает процесс принятия решений системой прозрачным и понятным для человека. Объяснимый искусственный интеллект: понимание черного ящика The rise of explainable AI has become crucial, as it helps users understand the decision-making processes of complex models.
Fact-checking Проверка фактов Процесс проверки информации на точность и достоверность, особенно в журналистике и научных исследованиях. There is a separate team of fact-checkers which already has members
Feed-forward neural networks FFNNs Прямые нейронные сети Тип нейронной сети, в которой информация проходит только в одном направлении — от входного слоя к выходному, без обратных связей. Переведен самостоятельно Feed-forward neural networks are the simplest type of artificial neural networks, where connections between nodes do not form cycles.
Few Shot Learning Обучение с малым количеством примеров - Это метод, при котором модель обучается на ограниченном количестве примеров для новой задачи. Переведен самостоятельно Few Shot Learning empowers models to learn new tasks quickly based on only a limited number of examples.
Foundation LLM Базовая модель - модели, которые обучены на обширных наборах данных, часто с помощью механизма самоконтроля. Это позволяет таким моделям добиваться превосходства в решении множества задач. Быстрое введение в мир существующих больших языковых моделей (LLM) для начинающих Using a Foundation LLM can provide a strong basis for building more specialized language models tailored to specific domains.
Generative adversarial networks GAN Генеративные соревновательные сети Тип нейронных сетей, используемый для генерации новых данных путём соперничества между двумя моделями: генератором и дискриминатором. Академик What is the main advantage of a human AI-trainer if there are Generative adversarial networks (GAN)?
Generative AI Генеративный ИИ - это тип системы искусственного интеллекта (ИИ), способной синтезировать текст, изображения или комбинированный медиаконтент в ответ на подсказки. Генеративный ИИ использует генеративные модели, такие как большие языковые модели. Википедия Generative AI has revolutionized content creation by allowing machines to produce original text, images, and music.
GPT-Generated Unified Format GGUF Единый формат, созданный с помощью GPT Универсальный формат, содержащий в себе множество метаданных ключ значение позволяющих однозначно определить какая модель находится внутри, какие у нее свойства, а так же без потери совместимости совершенствовать формат. Хабр The GPT-Generated Unified Format showcases how outputs from different instances of the GPT model can be standardized for better integration.
Hallucination Галлюцинация Явление, при котором модель генерирует ложные или несуществующие данные, которые не соответствуют обучающей выборке или реальности. Мультитран Hallucination in AI occurs when a model generates plausible-sounding but incorrect or nonsensical content.
Hidden Layer Скрытый слой Слой нейронной сети, который находится между входным и выходным слоями; его выходы передаются в следующий слой для дальнейшей обработки. Википедия In deep learning, the hidden layers play a crucial role in learning complex features from the input data.
Human-in-the-loop HITL Человек в цикле Подход в машинном обучении, который включает человеческое участие в процессе обучения и принятия решений. Википедия Human-in-the-Loop is a post-editing process.
In-Context Learning ICL ОК Обучение в контексте Обучение модели на основе контекста, предоставленного в запросах, что позволяет ей адаптироваться к конкретным задачам без дополнительного обучения. Википедия In-context learning allows models to adapt their responses based on examples provided within the same interaction.
Knowledge Base База знаний - Организованная коллекция данных, информации и знаний, предназначенная для хранения и предоставления ответов на запросы. Может содержать статьи, руководства, FAQ и др. Переведен самостоятельно A comprehensive knowledge base ensures that AI systems have access to accurate and relevant information for decision-making.
Long short-term memory LSTM Долгосрочная и краткосрочная память Архитектура рекуррентной нейронной сети, способная учиться на длинных последовательностях данных. Википедия LSTM networks are commonly used for tasks that require sequence prediction, such as time series forecasting.
Machine learning programs Программы машинного обучения Программное обеспечение, использующее алгоритмы машинного обучения для анализа данных и принятия решений без явного программирования. Переведен самостоятельно "...if machine learning programs like ChatGPT continue to dominate the field of A.I..."
Machine learning systems Системы машинного обучения Комплексные системы, использующие методы машинного обучения для анализа данных, выявления закономерностей и выполнения предсказаний. Переведен самостоятельно The predictions of machine learning systems will always be superficial and dubious.
Machine Translation Quality Metrics MTQM МКМП Метрики качества машинного перевода Методы измерения точности и адекватности перевода машинными системами. Яндекс переводчик Do the post-edited translations produced by LLMs lead to general quality improvements as measured by state-of-the-art MT quality metrics?
Memory size Размер памяти Объём данных или информации, которую система может хранить Переведен самостоятельно >a href="https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html">... in terms of processing speed and memory size but also qualitatively in terms of intellectual insight...
Meta Prompting Мета-запрос Процесс создания запросов, которые помогают системе лучше понять, как взаимодействовать и обрабатывать информацию. Толковый словарь ИИ Meta prompting involves creating prompts that help optimize the behavior and efficiency of language models.
Model Architecture MoE Архитектура модели Структура и взаимосвязи компонентов модели искусственного интеллекта, определяющие, как она обрабатывает данные и решает задачи. Википедия The model architecture determines how information flows and is processed, significantly affecting performance.
Multidimensional Quality Metrics MQM ММК Многомерные метрики качества Система оценки перевода, учитывающая разные аспекты качества, такие как точность, стиль и грамматика. Переведен самостоятельно We experiment with WMT-22 General MT translation task datasets (Kocmi et al., 2022) as well as with WMT-20 and WMT-21 News translation task submissions annotated with MQM.
Narrow domains Узкие области Специфические области знаний или темы, на которых сфокусировано приложение или модель ИИ Context Reverso However useful these programs may be in some narrow domains (they can be helpful in computer programming, for example, or in suggesting rhymes for light verse).
Natural language processing NLP ОЕЯ Обработка естественного языка Область ИИ, занимающаяся взаимодействием между компьютерами и человеческим языком. Википедия NLP techniques enable machines to understand and interpret human language in a meaningful way.
Neural Machine Translation NMT НМП Нейронный машинный перевод это подход к машинному переводу, в котором используется большая искусственная нейронная сеть. Переведен самостоятельно Neural machine translation utilizes deep learning techniques to enhance the accuracy and fluency of translations between languages.
Online trolls Интернет-тролли Люди или автоматизированные программы, которые намеренно провоцируют или распространяют негативный контент в онлайн-сообществах. Переведен самостоятельно Polluted by online trolls who filled it with offensive training data.
Overgenerate Сверхгенерация Ситуация, при которой модель генерирует избыточное количество ответов или вариантов, из которых многие могут быть нерелевантными. Переведен самостоятельно They either overgenerate (producing both truths and falsehoods, endorsing ethical and unethical decisions alike) or undergenerate (exhibiting noncommitment to any decisions and indifference to consequences).(https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html)
Parallel Corpora Параллельные корпуса Наборы текстов на разных языках, используемые для обучения систем машинного перевода. Multitran "...trained on web-mined parallel corpora..."
Parameters Параметры Настройки и переменные модели, которые определяют ее поведение и результат. Мультитран Tuning the model parameters is essential for improving the accuracy of predictions.
Post-editing Правки Процесс исправления и улучшения текста, полученного из системы машинного перевода Переведен самостоятельно Thereby, post-editing neural machine translations remains an important exercise for their use in critical settings across the translation and localization industry
Prompting Промптинг Метод обучения нейронных сетей с помощью правильных вводных данных Что такое промпт для нейросети и как его составлять. Объясняем простыми словами Effective prompting techniques can significantly influence the performance of language models in generating desired outputs.
Proof of Work PoW Доказательство выполнения работы Система защиты систем от DoS-атак или злоупотребления услугами Википедия I will give one example: there is Blockchain and Proof of Work.
Quantization Квантование Процесс преобразования модели с плавающей точкой в более компактный формат с фиксированной точкой, что уменьшает ее размер и увеличивает скорость выполнения. Википедия Quantization techniques help reduce the memory footprint of models, facilitating deployment on resource-constrained devices.
Reinforcement Learning RL Обучение с подкреплением Подход к машинному обучению, при котором агент обучается принимать решения, получая вознаграждения или наказания за свои действия в окружающей среде. Толковый словарь ИИ Reinforcement Learning allows agents to optimize their actions based on rewards received from their environment.
Reinforcement Learning from Human Feedback RLHF Обучение с подкреплением на основе отзывов, обучение с подкреплением на основе человеческих предпочтений Метод, который обучает «модель вознаграждения» непосредственно на основе отзывов человека и использует её в качестве функции вознаграждения для оптимизации политики агента с использованием обучения с подкреплением Википедия: Обучение с подкреплением на основе отзывов людей Reinforcement Learning from Human Feedback bridges the gap between automated and human-guided learning, ensuring models align with human values.
Retrieval-Augmented Generation RAG Генерация с дополненной выборкой — это технология, сочетающая в себе поиск релевантной информации в существующих хранилищах данных и генерацию текста с помощью языковых моделей для создания более точных и информативных ответов. Что такое RAG (Retrieval Augmented Generation) простыми словами и основные принципы Retrieval-Augmented Generation combines retrieval techniques with generation to enhance the quality and relevance of AI outputs.
Self-Supervision Самообучение - Парадигма машинного обучения, при которой модель обучается задаче, используя сами данные для генерации управляющих сигналов, а не полагаясь на внешние метки, предоставляемые человеком. Переведен самостоятельно Self-Supervision allows models to learn from unlabeled data, significantly reducing reliance on extensive annotation efforts.
Srtuctured Data Структурированные данные - Данные, организованные в строго определённой форме, часто в виде таблиц с фиксированными столбцами и Искусственный Интеллект для всех и каждого — часть I / Хабр Structured data is easier to analyze compared to unstructured data, which poses challenges due to its inherent variability.
String-based metrics AEMs Метрики на основе строк (Строковые метрики) Методы, используемые для оценки и сравнения строк данных, часто применяемые в обработке текста. Википедия String-based metrics are vital in natural language processing for determining similarity between sentences.
Structured CoT SCoT Структурированная цепочка рассуждений Вариант цепочки рассуждений с заданной структурой или категориями. Переведен самостоятельно System and User Prompts for Post-Editing with Structured Chain-of-Thought Baseline.
Subsymbolic Субсимволический Метод обработки данных, который не использует символы, а представляет информацию на более низком уровне, например, через нейронные сети. Толковый словарь ИИ Subsymbolic approaches often lead to data-driven models that excel in pattern recognition.
Symbolic Символический Метод обработки данных, использующий символы и формальные правила для представления информации. Толковый словарь ИИ Symbolic AI focuses on high-level reasoning using logic and symbols.
Synthetic data Синтетические данные Данные, созданные алгоритмически, а не собранные из реальных источников. Википедия Synthetic data can be useful for training machine learning models when real data is scarce.
System Prompt SP СЗ Системный запрос Встроенные инструкции или настройки, которые определяют поведение и функциональность системы искусственного интеллекта. Толковый словарь ИИ A system prompt can define the capabilities and constraints of the AI, ensuring it responds appropriately.
Tokenization Токенизация — это процесс разбиения текста на более мелкие единицы, называемые токенами. Эти токены могут представлять слова, части слов, или даже символы, в зависимости от метода токенизации. ChatGPT Tokenization is a crucial step in NLP, breaking down sentences into manageable pieces for processing by models.
Toolkits Инструменты Набор библиотек и инструментов, используемых для разработки и тестирования моделей ИИ. Термин переведен самостоятельно There are various toolkits available for machine learning that provide pre-built functions for model creation.
Training data Обучающие данные Набор данных, используемый для обучения модели машинного обучения, позволяющий ей распознавать шаблоны и принимать решения. Multitran Polluted by online trolls who filled it with offensive training data.
Transformer Трансформер — архитектура глубоких нейронных сетей, представленная в 2017 году исследователями из Google Brain со способностью «понимать» и эффективно обрабатывать логически связанные последовательности данных. Переведен самостоятельно The transformer architecture has become a foundational technology for many state-of-the-art natural language processing systems.
Transformer Трансформер Архитектура нейронной сети, разработанная для обработки последовательностей, использующая механизмы внимания. Толковый словарь ИИ Transformers have revolutionized natural language processing tasks with their efficiency and effectiveness.
Translation Artifacts Переводческие искажения Ошибки или несоответствия, возникающие в процессе машинного перевода. Академик "...removing undesirable artifacts"
Translation Error Rate TER КОП Коэффициент ошибок перевода Метрика, показывающая долю правок для улучшения перевода Переведен самостоятельно "the final translation is closer" to the zero-shot translation, even though the TER difference is much smaller than the difference in the CoT setting.
Undergenerate Недогенерация Ситуация, при которой модель генерирует недостаточное количество ответов или вариантов, что приводит к упущению важной информации. Переведен самостоятельно They either overgenerate (producing both truths and falsehoods, endorsing ethical and unethical decisions alike) or undergenerate (exhibiting noncommitment to any decisions and indifference to consequences).
Unstructured Data Неструктурированные данные - Данные, которые не имеют заранее определённой структуры, такие как текстовые документы, изображения, видео или аудио. Для их обработки часто требуются сложные методы, такие как машинное обучение. Искусственный Интеллект для всех и каждого — часть I / Хабр Structured data is easier to analyze compared to unstructured data, which poses challenges due to its inherent variability.
User Prompt UP ЗП Запрос пользователя (Пользовательский запрос) Входные данные или инструкции, предоставленные пользователем системе искусственного интеллекта для получения ответов или выполнения задачи. Википедия A user prompt initiates interaction with an AI, guiding the system in producing a specific response.
Vector DB Векторная база данных - База данных, оптимизированная для хранения и поиска векторных представлений данных. Переведен самостоятельно Companies utilize a Vector DB to perform efficient similarity searches based on high-dimensional embeddings.
Vector Search Векторный поиск метод получения информации, в котором документы и запросы представляются как векторы вместо обычного текста. Векторы в поиске ИИ Azure Vector search methods leverage embeddings to find the closest matching data points in high-dimensional spaces.
Zero Shot Learing Обучение без примера Это метод, при котором модель обучается решать задачи или предсказывать результаты без какой-либо прямой предварительной подготовки на данных для этой задачи. Переведен самостоятельно Zero Shot Learning enables models to perform tasks without having seen examples during training, showcasing their flexibility.



Термин Абб.(англ.) Абб.(рус.) Перевод Значение Источник перевода Контекст
Arbitrary models AM ПМ Произвольные модели Модель, которая может быть любого типа и отражать любые структуры Wooordhunt This is in part due to advances in computing (e.g. computing derivatives in arbitrary models) and in part the availability of huge collections of text from the internet.
Attention mechanism - - Механизм внимания Техника, используемая в рекуррентных нейронных сетях и сверточных нейронных сетях для поиска взаимосвязей между различными частями входных и выходных данных. Multitran Authors describe a convolutional network model with a soft attention mechanism.
Attentional mechanism - - Механизм внимания Техника, используемая в моделях глубокого обучения, которая позволяет модели фокусироваться на определённых частях входных данных при выполнении предсказаний Multitran Probably the most important is that modern models include an attentional mechanism that allows the next word in sequence to be predicted from some previous far in the past.
Automated translation AT АП Автоматизированный перевод Автоматический перевод текста с одного естественного языка на другой, выполняемый лингвистическим ПО Multitran The linguistics as it exists has emerged in Russia and the USSR in the late 50s and the goal was to create automated translation.
“Autocomplete” systems - - Системы "автоматического заполнения" Предиктивная (предугадывающая) система набора текстов Translate Examples like these show why dismissals from cognitive scientists like Gary Marcus2 that the models are just the same as “autocomplete” systems on your phone are far too shallow
Baseline - - Исходная модель Составные компоненты проекта Multitran LLMs and Baselines
Bitext - - Параллельный текст Текст на одном языке вместе с его переводом на другой язык Multitran The concept of the bitext shows certain similarities with that of the translation memory.
Bona fide linguistic theories - - Настоящие лингвистические теории Настоящие лингвистические теории Multitran This means that language models should be treated as bona fide linguistic theories
Chain of thought CoT - Цепочка размышлений Метод улучшения способности к рассуждению больших языковых моделей путём подсказки им сгенерировать серию промежуточных шагов, которые приводят к окончательному ответу на многоэтапную проблему Multitran In the absence of E, the task is reduced to simply generating the improved translation without any intermediate reasoning chain or Chain of Thought (CoT)
Clustering - - Кластеризация Разбиение множества объектов на подмножества (кластеры) по заданному критерию Multitran This capacity to discover hierarchical structure rather than building it in was long-emphasized by cognitive psychologists, for instance work inducing syntactic categories by clustering
Computable function - - Вычислимая/ вычислительная функция Функция, вычисление значений к-рой может быть проведено с помощью заранее заданной эффективной процедуры, или алгоритма. Multitran A three-layer neural network is well-known to be capable of approximating any computable function
Computational theory - - Вычислительная теория Область науки на стыке математики и информатики, изучающая группы с помощью вычислительных машин Multitran There exist natural bases from which you can parameterize essentially any computational theory.
Conditional distribution - - Условное распределение Многомерное распределение случайных величин, которое получается, когда значения одной или нескольких из них фиксированы Multitran That the conditional distribution of given follows the normal distribution.
Contemporary models - - Современные модели Сложные нейросетевые архитектуры, состоящие из десятков и даже сотен миллиардов параметров, они обучаются на огромных объёмах текстовых данных, что позволяет им улавливать тонкие нюансы языка Multitran I highlight the relationship between contemporary models and prior approaches in linguistics
Context-free grammars - - Контекстно-свободные грамматики Частный случай формальной грамматики (тип 2 по иерархии Хомского), у которой левые части всех продукций являются одиночными нетерминалами (объектами, обозначающими какую-либо сущность языка (например: формула, арифметическое выражение, команда) и не имеющими конкретного символьного значения) Context Reverso Anyone who has dealt in simpler language models like 𝑛-grams or contextfree grammars will be impressed that this model is capable of incorporating not just longer dependencies within sentences, but across sentences.
Continuous calculus - - Непрерывный анализ Непрерывный анализ Multitran They are based in a continuous calculus that allows multiple influences to have a gradient effect on upcoming linguistic items
Datasets - - Массивы данных Структура данных, хранящая упорядоченный набор однотипных элементов Wooordhunt These are models of text that are trained on huge datasets of internet-based text to predict upcoming linguistic material
Edit Realization Rate ERR - Скорость реализации редактирования Метрика, которая измеряет, насколько предложенные большой языковой моделью (LLM) модификации эффективно включены в окончательный улучшенный перевод самостоятельный перевод We quantify this property using Edit Realization Rate (ERR)
Empirical tests - - Эмпиритические тесты Один из методов эмпирического исследования, который заключается в применении стандартизированных вопросов и задач самостоятельный перевод While generative syntacticians insulated themselves from engineering, empirical tests, and formal comparisons, engineering took over
Encoder-decoder models - - Кодер-декодер Устройства или программы, которые преобразуют информацию из одного формата в другой Context Reverso Multilingual LLMs are beginning to show that they can outperform bespoke attention-based encoder-decoder models
Feed-forward neural networks FFNN НСПР Нейронная сеть прямого распространения Искусственная нейронная сеть, в которой нейроны никогда не образуют цикла Translate We will describe in later chapters how NMT models initially used feed-forward neural networks (FFNN)
Formal comparisons - - Формальные сравнения Соблюдая необходимые формальности, правила; в соответствии с правилами, формальностями самостоятельный перевод While generative syntacticians insulated themselves from engineering, empirical tests, and formal comparisons, engineering took over
Genuine theories of language - - Генеративные теории языка Направление в структурной лингвистике, которое рассматривает предложение как главную единицу языковой системы самостоятельный перевод I describe the sense in which modern language models implement genuine theories of language
Graphic processing units GPUs ГП Графический процессор Видеокарты, который необходим для обработки графики, 3D-моделирования, обработки большого объёма данных и сложных математических вычислений Context Reverso Especially the advent of fast-performing graphic processing units GPUs
Hidden variables and relationships - - Скрытые переменные и взаимосвязи Концепция скрытых переменных и их связей самостоятельный перевод A good mental picture to have in mind for how massively over-parameterized models like these work is that they have a rich potential space for inferring hidden variables and relationships.
Hierarchical structure - - Иерархическая структура Расположение частей или элементов целого в порядке от высшего к низшему. самостоятельный перевод These models discover structure—including hierarchical structure–from their training
Human evaluation - - Оценка человека, человеческая оценка Процесс оценки производительности и эффективности систем искусственного интеллекта Context Reverso Human evaluation was needed, but this was expensive to organise
Hyper-Text Markup Language HTML - Гипертекстовые информационные ресурсы Стандартный язык описания структуры гипертекста; расширение имени файла с гипертекстовым документом; расширение имени файла на языке HTML Multitran This means building them in simple HTML whenever possible.
Implemented theories - - Конкретные реализованные теории Конкретные реализованные теории самостоятельный перевод First, there is some ambiguity, in that as a model of language, the trained model is no longer “anything goes”—they are specific, implemented theories.
Information theory - - Теория информации Раздел прикладной математики, радиотехники (теория обработки сигналов) и информатики, относящийся к измерению количества информации, её свойств и устанавливающий предельные соотношения для систем передачи данных самостоятельный перевод A second point is that for these models, probability and information theory are central.
Integrate semantics and syntax - - Совмещение семантики и синтаксиса Предполагает одновременную обработку семантики и синтаксиса, а не их разделение на отдельные этапы самостоятельный перевод A second key feature of these models is that they integrate semantics and syntax
Intuitive pipeline - - Интуитивно понятная последовательность Интуитивные конвейеры, которые настраивают триггеры, устанавливают этапы завершения кода и выполняют последовательные задания самостоятельный перевод In fact, the internal processing structure of some models seems to spontaneously develop an intuitive pipeline of representing parts of speech, followed by parsing, semantic analysis, etc.
Language Pairs LP ЯП Языковые пары Язык оригинала и язык перевода с учётом направления перевода самостоятельный перевод Explore the use of GPT-4 to automatically post-edit NMT outputs across several language pairs
Large Language Model LLM БЯМ Большая языковая модель Языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя Multitran We formalize the task of direct translation post-editing with Large Language Models (LLMs)...
Machine Translation MT МП Машинный перевод, автоматический перевод Процесс автоматического перевода текста или речи с одного естественного языка на другой, осуществляемый искусственным интеллектом без участия человека Wooordhunt Neural Machine Translation (NMT) represents the leading approach to Machine Translation (MT)...
Machinery of transformational grammar - - Механизм транформационной грамматики Механизм, который порождает совокупность грамматически правильных последовательностей и не порождает ни одной грамматически неправильной последовательности самостоятельный перевод In practice, there is often no clear line between engineering and science because scientists often need to invent new tools to even formulate theories: was Newton’s calculus engineering instead or science? The machinery of transformational grammar?
Maximum likelihood principle - - Принцип наибольшей вероятности Метод наибольшей правдоподобности Context Reverso We can make a principled choice between parameters—and thus theories—by choosing the one that makes the data most likely (maximum likelihood principle), although often including some prior information about plausible parameter values or penalties on complexity (e.g. Bayesian estimation).
Model of strings - - Текстовая модель Текстовая модель самостоятельный перевод Virtually all of the structure we see in language can come from learning a good model of strings, not directly modeling the world.
Model’s training set - - Набор данных для обучения модели Обучающая выборка, набор структурированных данных, используемый для обучения модели в машинном обучении самостоятельный перевод Note that this specific example was not in the model’s training set—there is no possibility that Trump understands prime numbers.
Multilingal large language models MLLMs МБЯМ Многоязычные большие языковые модели Нейросетевые модели, которые поддерживают несколько языков самостоятельный перевод Multilingual LLMs are beginning to show that they can outperform bespoke attention-based encoder-decoder models
Neural Machine Translation NMT НМП Нейронный машинный перевод Подход к автоматическому переводу текста, основанный на использовании глубоких нейронных сетей Глоссарий Neural Machine Translation (NMT) represents the leading approach to Machine Translation (MT)...
Neural network - - Нейронная сеть Математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации биологических нейронных сетей Multitran A three-layer neural network is well-known to be capable of approximating any computable function
Neural network NN НС Нейронная сеть В системе искусственного интеллекта Multitran This time, I took the template from the guidelines myself and indicated clarifications in red brackets that the neural network suggested.
Phenomena of emergence - - Феномен эмерджентности Свойство сложных систем, когда их поведение или характеристики не могут быть объяснены свойствами их частей. Multitran Over modern scientific history, many computational scientists have noticed phenomena of emergence
Post-editing PE ПР Постредактирование Процесс проверки и исправления машинно переведённого контента для обеспечения его точности, ясности и соответствия целевой аудитории самостоятельный перевод Our results demonstrate that GPT-4 is adept at translation post-editing, producing meaningful and trustworthy edits to translations that help improve its general quality
Probability theory - - Теория вероятностей Раздел математики, изучающий случайные события, случайные величины, их свойства и операции над ними самостоятельный перевод A second point is that for these models, probability and information theory are central.
Raw data - - Исходная информация Данные в базе данных, подлежащие обработке для предоставления информации пользователю Multitran A digital computer transforms raw data into useful information effortlessly.
Recurrent neural network RNN РНС Рекуррентная нейронная сеть Искусственная нейронная сеть (ИНС), содержащая направленные обратные связи Multitran We start from the encoder, a straightforward application of a recurrent neural network, based on its property of sequence summarization.
Search Engine Optimisation SEO - Поисковая оптимизация Комплекс мероприятий по внутренней и внешней оптимизации для поднятия позиций сайта в результатах выдачи поисковых систем по определённым запросам пользователей, с целью увеличения сетевого трафика, потенциальных клиентов и последующей монетизации этого трафика. Multitran This figure out much more than the importance of the Search Engine Optimisation.
String patterns - - Строковые шаблоны/ шаблон строки Особый вид строк, который позволяет встраивать значения переменных или выражений непосредственно внутрь строки Multitran Architectures generally vary in how well they capture computational classes of string patterns
Structured chain of thought SCoT - Структурированная цепочка размышлений Набор сообщений, который последовательно отправляется модели, и к этому набору сообщений добавляются ответы модели самостоятельный перевод The SCoT baseline uses the MQM annotation instructions
Sub-word encoding - - Подсловесная кодировка Метод токенизации на подслова, который использует статистический анализ обучающего датасета для обнаружения общих символов внутри слова, таких как последовательные символы произвольной длины самостоятельный перевод These are models of text that are trained on huge datasets of internet-based text to predict upcoming linguistic material (often at a sub-word but supra-character encoding).
Sublanguage - - Подмножество языка Специализированный язык или жаргон, связанный с определенной группой или контекстом Multitran When you move from one sublanguage to another, however, the rules may change.
Supra-character encoding - - Надсимвольная кодировка Процесс присвоения чисел графическим символам, что позволяет их хранить, передавать и преобразовывать с помощью компьютеров самостоятельный перевод These are models of text that are trained on huge datasets of internet-based text to predict upcoming linguistic material (often at a sub-word but supra-character encoding).
Terminology management system TMS - Система ведения терминологических баз данных Программное средство для обработки терминов, представленных в определенном формате Multitran Implementing and maintaining terminology management systems
Token - - Токен Минимальная единица кода, которая имеет смысл в контексте языка программирования Multitran A typical language model might be trained on hundreds of billions of tokens
Trained model - - Обученная модель Компьютерная программа, отражающая искомую закономерность самостоятельный перевод First, there is some ambiguity, in that as a model of language, the trained model is no longer “anything goes”—they are specific, implemented theories.
Transformers (neural networks) - - Трансформеры «Меняющий форму, трансформирующий(ся), преобразующий(ся)» Context Reverso Often neural networks called transformers
Translation Edit Rate TER - Метрика качества машинного перевода Оценка количества правок, необходимых для приведения машинного перевода в полное соответствие наиболее близкому эталонному переводу Context Reverso To measure the similarity of translations, we use the Translation Edit Rate (TER)
User interface UI - Окно пользователя Средства представления информации для пользователя Multitran Negative feature is the slightly complicated user interface.
Web-mined (parallel corpora) - - Веб-майнинг Использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете самостоятельный перевод State-of-the-art Neural Machine Translation (NMT) models, trained on web-mined parallel corpora suffer from reliability problems even for higher resource language pairs
Zero shot - - Нулевой выстрел, нулевая настройка Подход в машинном обучении, позволяющий моделям учиться без прямого опыта с объектами или языками Wooordhunt Throughout this work, we refer to the postediting task in the above zero-shot CoT setting as post-editing with CoT and the setting without E as post-editing without CoT.

Авторы словарей по ИИ и БЯМ:
Студенты Санкт-Петербургского политехнического университета Петра Великого



Термины по ИИ / БЯМ:



Автоматическая генерация текстов


АГТ/АГП


Предобработка


Предредактирование


Постобработка (а не постредактирование)


Стратегия постобработки


Сценарий АГТ/АГП


Специалист по АГТ/АГП


Автоматический сгенерированный текст


АСТ/АСП


Специалист по постобработке АСТ/АСП


Редактор АСТ/АСП



API Application programming interface


CAGR Compound annual growth rate


CMS Content management system


DTP Desktop publishing


EBITDA Earnings before interest, taxes, depreciation, and amortization


LSP Language service provider


LTP Language technology provider


M&A Mergers and acquisitions


MI Machine interpreting


MTQE Machine translation quality estimation


PE Private equity


S2ST Speech-to-speech translation


TMS Translation management system


VC Venture capital