🌟GLM-4.5 и GLM-4.5-Air: релиз гибридных моделей, заточенных под агентные задачи.
В новом семействе GLM, Z.AI объединили в одной модели возможности для рассуждений, кодинга и агентных сценариев. Семейство построено на архитектуре MoE и может работать в двух режимах: thinking mode для сложных задач с использованием инструментов и non-thinking mode для быстрых ответов.
🟡В релиз вошли:
🟢GLM-4.5 с 355 млрд. общих параметров (32 млрд активных) и ее облегченная версия;
🟠GLM-4.5-Air, облегченная версия со 106 млрд. общих параметров (12 млрд активных).
Интересно, что разработчики пошли по пути увеличения глубины модели (количества слоев), а не ширины (скрытого измерения), так как обнаружили, что модели с большим количеством слоев лучше справляются с рассуждениями.
🟡 Для эффективного RL таких крупных моделей был разработан и открыт собственный фреймворкslime.
Он поддерживает как синхронное, так и асинхронное обучение, что критически важно для агентных задач. Его инфраструктура полностью разделяет движки для роллаутов (сбора опыта) и движки для обучения, которые могут работать на разном железе.
🟡Главный акцент GLM-4.5 - агентные возможности.
Для их оценки использовались 3 бенчмарка. На TAU-bench модель GLM-4.5 показала результат в 70.1 балла, что практически идентично Claude 4 Sonnet (70.3) и заметно лучше, чем у o3 (61.2).
На бенчмарке для вызова функций Berkeley Function Calling Leaderboard v3 результат составил 77.8, снова опережая Claude 4 Sonnet с ее 75.2 баллами.
Но самый показательный результат был на BrowseComp, сложном тесте для веб-браузинга. В нем GLM-4.5 набрала 26.4, что выше, чем у Claude-4-Opus (18.8) и почти как у o4-mini-high (28.3).
Что касается классических задач на рассуждения, здесь модели показывают уверенные, хотя и не рекордные, результаты.
На MMLU Pro у GLM-4.5 84.6 балла, чуть меньше, чем у Claude 4 Opus (87.3) и Grok 4 (86.6).
В математическом тесте AIME24 модель набрала 91.0, ближайшие лидеры Qwen3 и Grok 4 - 94.1 и 94.3 соответственно.
На GPQA разрыв побольше: 79.1 у GLM-4.5 против 87.7 у Grok 4, а на сложном тесте по научной литературе HLE модель получила 14.4 балла, уступив Gemini 2.5 Pro (21.1) и Grok 4 (23.9).
В задачах, связанных с кодом, на тесте SWE-bench Verified модель набрала 64.2 балла, немного уступая Claude 4 Sonnet (70.4) и o3 (69.1), но опережая многие другие.
А вот в агентном кодинге, который оценивался людьми с помощью Claude Code, картина иная. В прямом сравнении GLM-4.5 выигрывает у Kimi K2 в 53.9% случаев и обходит Qwen3-Coder с винрейтом 80.8%.
Самый важный показатель - успешность вызова инструментов, где GLM-4.5 достигла 90.6%, опередив Claude-4-Sonnet (89.5%) и Kimi-K2 (86.2%).
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#GLM#MoE#ZAI
⚡️GLM-5.1 вышел — open-source модель с топовым кодингом
Z AI представили GLM-5.1 — новую open-source модель с сильным фокусом на программирование и агентные задачи.
По заявлениям разработчиков, модель занимает:
🟡№1 среди open-source
🟡№3 в мире по совокупности бенчмарков (SWE-Bench Pro, Terminal-Bench, NL2Repo)
Главная фишка — автономность. Модель может работать до 8 часов подряд, сама улучшая стратегию и проходя тысячи итераций без вмешательства пользователя.
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#glm#новости
⚡️GLM-5-Turbo — новая быстрая модель для агентных систем
Компания Z.ai представила GLM-5-Turbo — ускоренную версию модели GLM-5, которая оптимизирована для agent-driven окружений вроде OpenClaw. Главный фокус новинки — высокая скорость работы и стабильность в системах с AI-агентами, где модель должна быстро принимать решения и вызывать инструменты.
Модель уже можно использовать через OpenRouter, а разработчики опубликовали официальную документацию API с примерами интеграции. Также модель доступна в Coding Plan Max
Раскатка проходит поэтапно:
🟡Pro-пользователи получат GLM-5-Turbo уже в марте
🟡Lite-пользователи сначала получат GLM-5 в марте, а GLM-5-Turbo станет доступна в апреле
Тем, кому нужен доступ раньше, предлагают подать заявку на раннее тестирование:
Pro-доступ к GLM-5-Turbo можно запросить через форму Early Access, а Lite-доступ к GLM-5 — через отдельную форму.
Важно: текущая версия GLM-5-Turbo является экспериментальной и закрытой (closed-source). Разработчики отмечают, что все полученные результаты и улучшения позже будут перенесены в следующую open-source модель.
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#glm#новости
⚡️GLM-4.6 вышла
GLM-4.6 — новая версия Z.AI с окном контекста 200K токенов (выход до 128K). Сделан упор на кодовые задачи, работу с инструментами и поиском, а также агентные сценарии и генерацию интерфейсов.
Доступен быстрый старт через API/SDK и профильные планы для разработки. Подробнее — в документации GLM-4.6.
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#glm
⚡️GLM-5 вышла в веб чате Z AI
Пробуем тут - https://chat.z.ai/
Блог поста и бенчмарков пока нет
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#glm
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML
🔥Meta представила революционную серию Llama 4!🚀
Компания анонсировала мультимодальные модели ИИ нового поколения, которые объединяют текст, изображения и видео в единую архитектуру. Вот главное, что нужно знать:
Архитектура и инновации
➡️Раннее слияние модальностей: Модели обрабатывают текстовые и визуальные токены в едином «ядре», что улучшает понимание контекста.
➡️Mixture-of-Experts (MoE): Используют «смесь экспертов» — только часть параметров активируется для конкретной задачи, что повышает скорость и снижает затраты на вычисления.
➡️Рекордный датасет: Обучение на 30 триллионах токенов (в 2 раза больше, чем у Llama 3!) с применением MetaP-оптимизации и методов RLHF.
Три модели — три специализации
1. Llama 4 Scout (17B параметров, 16 экспертов)
– Контекстное окно 10 млн токенов для анализа длинных текстов.
2. Llama 4 Maverick (17B параметров, 128 экспертов)
– Идеален для задач общего назначения и работы с изображениями.
3. Llama 4 Behemoth (288B активных параметров)
– Превышает GPT-4.5 и Claude Sonnet 3.7 в STEM-тестах.
Чем лучше конкурентов?
➡️Производительность: Scout и Maverick обходят GPT-4o и Gemini 2.0 Pro в кодинге, мультиязычных задачах и анализе изображений.
➡️Эффективность: Даже компактные версии показывают результаты топ-моделей при меньших вычислительных затратах.
➡️Универсальность: Первая линейка, где нативная мультимодальность сочетается с MoE-архитектурой.
Источники: Meta AI | LessWrong
#Meta#ИИ#Llama4#MoE#Инновации
P.S. Как думаете, сможет ли Llama 4 перевернуть индустрию генеративного ИИ, или это стандартный эволюционный шаг? 🤔
https://t.me/semasci
ClimateLearn - машинное обучение в предсказании климата и погоды
ClimateLearn - это библиотека в питоне для доступа к самым современным климатическим данным и моделям машинного обучения стандартизированным и простым способом. Эта библиотека предоставляет доступ к нескольким наборам данных, зоопарку базовых подходов, а также набору метрик и визуализаций для крупномасштабного сравнительного анализа методов статистического масштабирования и временного прогнозирования.
В этом ноутбуке можно поучиться как пользоваться.
#ML#AI#climate
Seismic Foundation Model от создателя FaultSeg3D
Как говорится paper alert📖! Когда-то давно d 2018, тогда еще сотрудник Техасского Университета в Остине, Xinming Wu сделал синтетический датасет сейсмических моделей с разломами и обучил на нем довольно простую по нынешним временам сверточную нейронную сеть для сегментации разломов - FaultSeg3D. Написал статью и выкатил модель в октрытый доступ. На тот момент это был прорыв, так как модель работала во многом лучше существующих на тот момент инструментов.
Совсем недавно, он же сделал первый шаг к созданию первой базовой модели (Foundation Model) для сейсмического анализа недр и выпустил статью - "Seismic Foundation Model (SFM): a new generation deep learning model in geophysics". Особенность базовых моеделей в том, что они обучены на огромном количестве данных и служат отправной точкой для разработки специализированных моделей и могут быть легко адаптированы к широкому спектру применений.
Авторы накопали 192 сейсмических куба, >2 миллионов сейсмических разрезов и натренировали эту самую сейсмическую базовую модель, используя архитектуру Трансформера. Затем протестировали работу модели на различных задачах: классификация фаций, сегментация геологических тел, сейсмическая инверсия, подавление шумов и интерполяция сейсмической записи. Теперь они могут дообучать модель или использовать тонкую настройку для более узких задач. Побольше бы такого!
В обсчем, что тут сказать, Data is a King 👑. Есть данные, будет и базовая модель. Но только, сдается мне, что даже с "номинально" открытыми данными все не так просто и там куча условностей. Видимо по этому, ссылка на гитхаб в статье не работает 😀.
Статью можете нати во вложении!
#ML#AI#paper
Хакатончик от Xeek
Two Birds, One Neural Network - так называется новый хакатон от Xeek в области Generative AI. Звучит как-будто нужно сделать свой Dalle-E2, но на самом деле, задача выглядит немного иначе. По условиям хакатона, участникам нужно сделать нейронную сеть, которая максимизирует разнообразие генерируемых результатов, отвечающих двум условиям. Авторы хакатона проводят параллели с добавлением двух геофизических измерений для ограничения сценариев геологических моделей. Буквально, нужно построить нейронную сеть, которая генерирует разнообразные значения x0, x1, сохраняя при этом их природу в виде нисходящих или восходящих прямых линий, удовлетворяющих заданным функциям y1, y2, как показано на картинке.
Более подробное описание - тут. Призовой фонд $40К (первое место $19.5K).
#hackathon#AI#ML