Главная
AIRI
AIRI выпустила компактные языковые модели. Обгоняют гигантов по честности

AIRI выпустила компактные языковые модели. Обгоняют гигантов по честности

Автор videokarta-msi-gtx-970-gaming-4g.ru, июн 19, 2026

Российский институт искусственного интеллекта AIRI опубликовал два чекпойнта нового семейства компактных языковых моделей OCC-RAG - на 0.6 и 1.7 миллиарда параметров. Несмотря на скромный размер, они превосходят общие модели, которые тяжелее в два-шесть раз, по ключевому критерию: верности предоставленному контексту.

Маленький, но честный

Команда Optimal Cognitive Core сделала ставку не на энциклопедичность, а на рассуждение. Идея проста: большинство прикладных задач не требуют от модели знать всё на свете - важнее, чтобы она правильно работала с тем, что ей дали. Корпоративные документы, финансовые отчёты, внутренние инструкции - весь этот массив информации бесполезен, если модель предпочитает собственную память свежему источнику. Турция - США 3 тур

Проблема известна давно. Крупные языковые модели склонны доверять параметрическим знаниям сильнее, чем контексту. На практике это означает устаревшие или попросту неверные ответы - даже когда правильный ответ буквально лежит перед моделью в тексте. OCC-RAG обучали именно против этого изъяна.

Как это работает на практике

Команда показала показательный эксперимент. В контекст подавалось заведомо ложное утверждение: «в 2022 году Шарль де Голль был избран первым президентом США». Вопрос - кто первый президент? Llama-3-8B уверенно отвечала «Джордж Вашингтон», игнорируя источник. Llama-3.2-1B вовсе выдавала «Дональд Трамп». OCC-RAG-1.7B - несмотря на меньший размер - следовала контексту и называла де Голля. Именно такое поведение авторы считают корректным для сценариев с верифицируемыми источниками.

По метрике faithfulness новинки обходят все протестированные модели до 32 миллиардов параметров. Следить за подобными сравнениями в нише RAG-систем сейчас не менее интересно, чем за крупными бенчмарками - рынок корпоративных ИИ-ассистентов растёт, и именно честность к источникам становится главным коммерческим аргументом. Кстати, схожая логика работает и в других высококонкурентных сценариях, где важна точность в нужный момент - как, например, в предстоящем Турция - США 3 туре чемпионата мира, где цена ошибки в анализе соперника не менее критична.

Три кита архитектуры

Авторы выделяют три ключевых навыка, которые закладывались при обучении:

Multi-hop рассуждение - способность собирать ответ из нескольких фрагментов контекста, связывая факты через промежуточные сущности
Следование источнику - опора исключительно на поданные данные без подмены памятью модели
Калиброванный отказ - честное «не знаю», когда контекст не содержит ответа

Для обучения собрали массивный синтетический корпус: вопросы генерировались по графу знаний, извлечённому из текстов методом Wikontic. Граф позволил строить задачи разной сложности - от простых однофакторных до многоступенчатых с условиями и ограничениями по времени или значению.

Что дальше

Оба чекпойнта уже доступны на Hugging Face, включая ONNX- и GGUF-сборки - форматы, ориентированные на развёртывание на локальном железе без облачной инфраструктуры. Это делает модели особенно привлекательными для компаний, которые не готовы отправлять внутренние документы во внешние API.

OCC-RAG - первая модель нового семейства. Команда анонсировала продолжение линейки, не раскрывая деталей. Судя по выбранной нише, следующие релизы, вероятно, будут бить в смежные задачи: суммаризацию с верностью источнику, извлечение структурированных данных, агентные сценарии с проверяемыми цепочками рассуждений.