✈️MCP — технология умных ассистентов в действии
Хотите увидеть, как работает интеллектуальная обработка информации? На видео демонстрация нашего Telegram-бота, созданного на базе технологии MCP.
MCP (Model Context Protocol) — это подход, позволяющий создавать системы, которые не просто выполняют заданные команды, а понимают суть информации и самостоятельно решают, как её обрабатывать. В отличие от обычных программ, MCP-решения адаптируются к различным запросам без необходимости перепрограммирования.
Наш бот умеет мониторить любые Telegram-каналы (достаточно переслать ему пост), анализировать их содержимое и отвечать на вопросы естественным языком. Вы можете спросить "Что писали о блокчейне за неделю?" или "Собери основные мнения о последнем обновлении iOS" — и получите структурированный ответ. И всё это реализовано менее чем в 200 строках кода! 🤔
➡️ Подробнее о технологии MCP, её преимуществах и применении порассуждали в нашей статье на Дзен-канале Шашков & Головко • AI в решениях.
А кто уже экспериментировал с MCP-решениями? Поделитесь опытом в комментариях.
#ИИ#AI#Нейросети#MCP
———
#Инструменты#Ассистенты
✍️Подписывайтесь: @aiforproduct
🧠 Google выпускает крутейшее руководство по созданию AI-агентов!
Инженеры Google представили практическое руководство для всех, кто хочет создавать по-настоящему умные и самостоятельные ИИ-системы.
О чём этот документ?
Раньше ИИ просто реагировал на запросы.Теперь он может самостоятельно ставить цели, планировать и действовать для их достижения. Такие системы называются агентными. Это новый уровень искуственного интеллекта.
Чем это полезно обычному пользователю?
Представьте себе не просто чат-бота, а умного цифрового помощника, который:
✅Сам разбирается с проблемами клиента, задаёт уточняющие вопросы и лезет в базу данных за ответами.
✅Не просто выполняет одну команду, а управляет целым процессом (например, бронирует вам весь отпуск: отель, билеты, экскурсии).
✅Автономно принимает решения, чтобы достичь цели, которую вы ему поставили.
Что внутри?
В руководстве— 21 готовый паттерн (шаблон) для построения таких систем. Это как конструктор для создания сложных ИИ. Всё подкреплено реальными примерами кода.
Коротко о главном:
Это наглядное пособие о том, как заставить ИИ не просто говорить, а делать сложную работу за нас.
#ИИ#AI#Google#Agents#Разработка#Программирование
https://t.me/semasci
📌Насколько Skills реально помогают LLM-агентам.
SkillsBench — исследование и первый бенчмарк, где Agent Skills тестируются как самостоятельный артефакт.
Авторы из 15+ топовых университетов взяли 84 задачи из 11 доменов, запустили 7 конфигураций моделей (Claude Code с Opus/Sonnet/Haiku 4.5 и 4.6, Gemini CLI с Gemini 3 Pro/Flash, Codex с GPT-5.2) и проверили 3 условия: без Skills, с готовыми Skills и с самостоятельно сгенерированными Skills. Итого: 7 308 траекторий с детерминированными верификаторами на pytest.
Готовые Skills в среднем поднимают pass rate на 16,2 процентных пункта: с 24,3% до 40,6%. Но картина неоднородная: в медицине прирост составил +51,9%, для производства — +41,9%, тогда как в разработке ПО всего +4,5%.
Это объяснимо: там, где модели плохо покрыты обучением (клинические протоколы, промышленные воркфлоу), Skills дают максимальный эффект. Там, где модель и так знает домен - почти ничего.
🟡Главный и неожиданный результат: самогенерация Skills не работает.
Когда моделям предлагали сначала написать нужные гайды, а потом решать задачу, средний результат упал на 1,3% по сравнению с работой вообще без Skills. Только Claude Opus 4.6 показал скромный плюс (+1,4%), а GPT-5.2 просел на 5,6%.
Иными словами - модели не умеют надежно создавать то знание, которым умеют пользоваться.
🟡Еще один интересный момент - это объем Skills.
Оптимальный вариант: 2–3 модуля, прирост +18,6%. При 4 и более - всего +5,9%. Подробная документация вообще дает отрицательный эффект: –2,9%, с ней агент буквально тонет в контексте.
Показательна и стоимость решения задач: Haiku 4.5 со Skills обходит Opus 4.5 без Skills — меньшая и более дешевая модель с готовыми Skills бьет старшую модель без них.
Gemini 3 Flash при этом показал лучший абсолютный результат среди всех конфигураций - 48,7% со Skills при цене $0,57 за одну задачу против $1,06 у Gemini 3 Pro.
🟡Страница проекта
🟡Arxiv
@ai_machinelearning_big_data
#AI#ML#LLM#Benchmark#Skills
⚡️GLM-5 выкатили в опен-сорс.
Не прошло и суток с момента релиза, а Zhipu AI выложила веса GLM-5 и любезно поделилась проведенными бенчмарками.
Архитектура пятого поколения построена на MoE: 744 млрд. общих параметров при активных 40 млрд. Модель учили на 28,5 трлн. токенов и она получила контекстное окно в 200 тыс. токенов.
GLM-5 ориентирован на 5 доменов: кодинг, рассуждение, агентные сценарии, генеративное творчество и работа с длинным контекстом.
Для эффективной обработки длинных последовательностей интегрирован механизм Dynamically Sparse Attention от DeepSeek, он позволяет избежать квадратичного роста копьюта без потери качества.
По бенчмаркам GLM-5 занимает 1 место среди open-source моделей: 77,8% на SWE-bench Verified, лидирует на Vending Bench 2, BrowseComp и MCP-Atlas, а в задачах агентного кодирования и рассуждений вплотную подбирается к Claude Opus 4.5 и GPT-5.2.
Вместе с моделью, авторы предлагают Z Code — собственную агентную IDE с поддержкой параллельной работы нескольких агентов над одной задачей.
Локальный деплой поддерживается vLLM и SGLang, а также non-NVIDIA чипами: Huawei Ascend, Moore Threads, Cambricon (через квантование и оптимизацию ядер).
Если вам негде поднять модель локально, она доступна через платформу chat.z.ai, API и на OpenRouter.
Квантованные версии пока сделали только Unsloth, традиционно - полный набор от 1-bit до BF16.
И да, стэлс-модель PonyAlpha на OpenRouter - это она и была.
📌Лицензирование: MIT License.
🟡Статья
🟡Модель
🟡GGUF
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#GLM5#ZAI
⚡️Xiaomi MiMo-V2-Flash: MoE с 309 млрд. общих и 15 активных параметров.
Модель интересна нестандартным подходом к механизму внимания. Xiaomi использовали гибридную схему, чередующую глобальное внимание и внимание скользящего окна в пропорции 1 к 5.
Само скользящее окно всего 128 токенов, но несмотря на такую компактность, модель получила контекстное окно в 256 тыс. токенов.
🟡Модель создавалась с фокусом на эффективность инференса.
MiMo-V2-Flash выдает 150 токенов в секунду по API и добиться таких показателей удалось благодаря Multi-Token Prediction .
В отличие от стандартных методов, где декодирование упирается в пропускную способность памяти из-за низкой арифметической интенсивности, MTP генерирует несколько черновых токенов за раз. Основная модель затем валидирует их параллельно.
Блок MTP в MiMo-V2-Flash спроектирован легковесным: он использует плотную сеть прямого распространения вместо MoE и опирается на все то же скользящее окно внимания.
Измерения показали, что в этом есть смысл: при использовании 3-слойного MTP длина принятой последовательности составляет от 2,8 до 3,6 токена, что дает чистое ускорение инференса в 2,0–2,6 раза без увеличения операций ввода-вывода KV-кэша.
🟡На пост-трейне использовали парадигму Multi-Teacher Online Policy Distillation.
Ее суть в том, что модель-студент сэмплирует варианты ответов из собственной политики, а награды ей выдают сразу несколько моделей-учителей.
Это дало возможность масштабировать RL с ощутимой экономией: для пиковой производительности учителей требуется менее 1/50 вычислительных ресурсов по сравнению с традиционными пайплайнами SFT+RL.
🟡Боевые метрики на бенчмарках выглядят красиво.
На SWE-bench Verified модель набрала 73,4%. Это первое место среди всех открытых моделей и очень близко к показателям GPT-5-High.
В мультиязычном тесте SWE-bench Multilingual решила 71,7% задач.
В математическом AIME 2025 и научном бенчмарке GPQA-Diamond MiMo-V2-Flash входит в топ-2 среди open-source решений.
Для задач поиска на BrowseComp результат составил 45,4, а при использовании управления контекстом вырос до 58,3.
В прямом сравнении ризонинг-задачах MiMo-V2-Flash держит паритет с K2 Thinking и DeepSeek V3.2 Thinking, но превосходит K2 Thinking на длинных контекстах.
🔜 Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных).
📌Лицензирование: MIT License.
🟡Статья
🟡Техотчет
🟡Demo
🟡Модель
@ai_machinelearning_big_data
#AI#ML#LLM#MiMOv2Flash#Xiaomi
🌟Mixture-of-Recursions: концепция селективного ризонинга.
Архитектура Mixture-of-Recursions (MoR), предложенная Google в соавторстве с KAIST AI объединяет в едином фреймворке традиционные подходы разделения параметров и адаптивные вычисления, заставляя модель думать над каждым токеном с разной глубиной.
Под капотом MoR - рекурсивный трансформер, который прогоняет входные данные через один и тот же блок слоев несколько раз. Но главная фишка в том, что количество этих прогонов, или глубина рекурсии, не фиксированное, а динамическое и определяется для каждого токена индивидуально.
Легковесный обучаемый роутер анализирует токен и решает, сколько вычислительных усилий на него потратить. Простые слова могут пройти всего один цикл рекурсии, в то время как семантически нагруженные термины отправятся на более глубокую обработку из нескольких циклов.
Это дает два главных преимущества:
🟢Во-первых, модель тратит вычислительные ресурсы только на те токены, которые все еще активны на данной глубине рекурсии. Токены, которые вышли раньше, в дальнейших вычислениях не участвуют. Это уже само по себе сокращает объем вычислений.
🟢Во-вторых, что самое интересное для инженеров, MoR позволяет реализовать очень эффективное KV caching. Вместо того чтобы хранить в памяти огромный кеш для каждого виртуального слоя, модель кеширует KV-пары только для активных в данном цикле рекурсии токенов. Это кардинально снижает требования к памяти и ускоряет инференс, решая одну из главных головных болей при развертывании LLM.
При одинаковом бюджете на обучение (в FLOPs) и меньшем размере самой модели MoR показывает более низкую перплексию и лучшие результаты в few-shot задачах, чем стандартные и рекурсивные аналоги.
▶️ Попробовать MoR можно на практике - код для трейна и оценки доступен в репозитории проекта на Github.
📌Лицензирование: Apache 2.0 License.
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#Architecture#MoR
✔️Stanford и Google представили Marin — первую полностью открытую LLM, разработанную на JAX
Что делает Marin особенной:
— Полностью открыты не только веса, но показан весь процесс обучения: код, данные, гиперпараметры модели, логи, эксперименты — всё доступно на GitHub
— Модель обучена на 12.7 трлн токенов и в 14 из 19 тестов обошла Llama 3.1 8B
— Лицензия Apache 2.0, всё можно использовать, модифицировать и воспроизводить
— Levanter + JAX обеспечивают bit‑exact повторяемость и масштабируемость на TPU/GPU
Проект позиционируется как открытая лаборатория: каждый эксперимент оформляется через pull request, логируется в WandB, обсуждается в issue и фиксируется в истории репозитория. Даже неудачные эксперименты сохраняются ради прозрачности.
Выпущены две версии:
- Marin‑8B‑Base — сильный base-модель, превосходит Llama 3.1 8B
- Marin‑8B‑Instruct — обучена с помощью SFT, обгоняет OLMo 2, немного уступает Llama 3.1 Tulu
Это не просто открытые веса, а новый стандарт для научных вычислений в эпоху больших моделей.
* JAX — это фреймворк от Google для научных и численных вычислений, особенно популярен в сфере машинного обучения.
**TPU (Tensor Processing Unit) — это специализированный чип от Google, созданный для ускорения AI-задач.
🟠Github: https://github.com/stanford-crfm/marin
🟠Блог: https://developers.googleblog.com/en/stanfords-marin-foundation-model-first-fully-open-model-developed-using-jax/
🟠Гайд: https://docs.jax.dev/en/latest/quickstart.html
@ai_machinelearning_big_data
#ai#ml#tpu#jax#google