Post #9304

@ai_machinelearning_big_data

Machinelearning

Просмотры24,700Количество просмотров

Опубликован23 дек.23.12.2025, 14:51

Содержимое поста

Содержимое

✔️Команда AI-Центра Т-Банка выпустила обновление языковых моделей T-Pro 2.1 и T-Lite 2.1 Ключевыми изменениями стали улучшенные способности в точном следовании инструкциям (Instruction Following) и tool calling. ✔️Как изменились T-Pro 2.1 и T-Lite 2.1 T-Pro 2.1 (32B): модель стала значительно лучше понимать сложные требования (ответы строго в формат JSON, лимиты длины, многошаговые инструкции) и увереннее работать в агентских сценариях. Она основана на базе Qwen3-32B и отвечает без “тысяч токенов рассуждений”. T-Lite 2.1 (8B): популярная модель после обновления стала сильнее в прикладных задачах и при этом сохранила скорость и практичность для продакшена и локального запуска. ✔️Обучение моделей работе с инструментами Для улучшения Instruction Following команда разработала собственный пайплайн генерации синтетических данных на основе подхода AutoIF. На RL-стадии использовался алгоритм GRPO с комбинированной reward-функцией, которая проверяла как выполнение формальных требований через верификационные функции, так и осмысленность ответа через штраф на основе Reward Model. Это позволило избежать классической проблемы “reward hacking”, когда модель учится подстраиваться под проверку, а не давать хорошие ответы. ✔️Генерация синтетических инструментов для tool calling Для изменений в tool calling был разработан синтетический пайплайн. Сначала генерировались реалистичные наборы инструментов, а затем — сложные многошаговые диалоги с их использованием через мультиагентную симуляцию. Для обучения на этих данных применялся RL (GRPO) с бинарным reward, проверяющим корректность вызова, и балансировкой датасета. ✔️Результаты на бенчмарках На локализованном русскоязычном бенчмарке IFeval T-Pro 2.1 демонстрирует результат 0.8065, значительно опережая свою версию 2.0 (0.6865), а T-Lite 2.1 показывает 0.7585. На тесте BFCL v3 (RU), оценивающем tool calling, T-Pro 2.1 набирает 65.96 баллов, что является одним из лучших показателей среди открытых моделей, а T-Lite 2.1 — 56.45. В диалоговых аренах (Arena Hard Ru, WildChat) обновленные модели также показывают существенный рост качества ответов на реальные пользовательские запросы. @ai_machinelearning_big_data #news#ai#ml