Сайты "Комитета" (VC, DTF) обновили дизайн лайков и дизлайков. Раньше это была цифра с двумя стрелками-кнопками, как на Reddit, Хабре и Пикабу. Стрелка вверх добавляла посту или комментарию плюс, а стрелка вниз — минус. Сумма всех плюсов и минусов выводилась или зелёным, если она положительная, или красным с минусом, если отрицательная.
Сейчас лайк сделали отдельной кнопкой слева, дизлайк — отдельной кнопкой справа, с другим дизайном. А счётчик показывает всем только лайки, а дизлайки только автору.
Спорный тут и дизайн, и само решение. Дизайн понятно, почему: кнопки абсолютно разных стилей и в разных местах отвечают за принципиально похожие действия. Пользователи DTF уже вовсю стебутся комментами "Я скачал твой пост" (потому что кнопка дизлайка похожа на скачивание).
Но куда хуже то, что дизлайки отображаются только автору. Они при таких условиях нафиг не нужны. Автор может просто игнорировать этот счётчик. Раньше, если какой-то человек сморозил чушь, толпа его массово минусует, и все это видят, и он сам знает, что все видят. С полным ртом минусов очень сложно как-то оправдываться и продолжать отстаивать свою точку зрения. Ещё и добавлялось удобство сканирования для читателей: комменты с минусами можно специально пропускать, или, допустим, специально останавливаться на них ради горячей дискуссии.
У этой системы, разумеется, был серьёзный косяк: минусы получали не только те, кто говорил неверное или глупое мнение, но и те, кто говорил непопулярное мнение. Например, на VC лучше было не писать комментарии в поддержку России, даже если по смыслу тезис верный и просто передаёт какой-то факт, вроде "Россия одна из лучших в мире в области атомной энергетики". Это сводило обсуждения к тому, что люди либо молчали, либо подстраивались под принятую в сообществе идеологию, что могло, например, создавать ложные впечатления относительно количества поддерживающих ту или иную точку зрения, да и в целом не всегда способствовало образованию интересных обсуждений.
Тем не менее, на мой взгляд, полное сокрытие дизлайков при наличии самой кнопки дизлайка — решение, которое берёт худшее от всех альтернатив. Сам по себе институт дизлайка остаётся (а, значит, остаётся выражение негатива), при этом с коллективной ответственности за негатив ("Мудаки меня травят, ну и фиг с ними, стадо баранов!") идёт перенос на личную ответственность за негатив ("Вася Иванов меня травит, найду козла и начищу ему харю!"). Причём, ещё и для пользователей от этого нет никакого толка: теперь кто угодно может писать что угодно, и в худшем случае публично получит за это ноль лайков и всё.
Впрочем, в "Комитете" совершенно явный управленческий кризис (как и много где сейчас). Удивительно, что сайты хоть как-то ещё поддерживаются и даже вносятся изменения.
#web
🌟GLM-4.7 Flash: лайт-версия флагмана GLM-4.7.
В полку моделей, тех, что можно запустить локально, не продавая почку, прибыло.
ZAI выкатили GLM-4.7 Flash - облегченную версию GLM-4.7 на 30 млрд. параметров, с контекстным окном в 128К на архитектуре MoE.
Со слов создателей, модель должна занять нишу между сегментом SLM и проприетарными мастодонтами, предлагая SOTA-уровень в кодинге.
🟡MoE
Всего 30B, но активных параметров на токен гораздо меньше, официальной инфы нет, но в сообществе пишут, что 3 млрд.
🟡Interleaved Thinking
Киллер-фича для агентов, которая досталась в наследство от старшей GLM-4.7. Обычно модели выплевывают весь свой CoT в начале, а вот эта техника дает возможность модели думать перед каждым вызовом инструмента.
🟡Файнтюн на эстетику и DevOps
Опять-таки, со слов Zai, они натаскали GLM-4.7 Flash не просто писать валидный HTML/CSS, а использовать актуальные паттерны, нормальные отступы и цветовые схемы.
Плюс, подтянули работу с CLI и девопс-задачами (понимает права доступа, навигацию по файловой системе).
🟡Цифры тестов выглядят как конфетка.
В SWE-bench Verified модель выбивает 59.2%. Для сравнения: Qwen3-30B-A3B: 22.0%, GPT-OSS-20B: 34.0%.
В математическом AIME 25 тоже обходит конкурентов - 91.6%. А вот на BrowseComp она лучше GPT-OSS-20B почти в 1.5 раза.
Вобщем, Flash-версия выглядит как идеальный кандидат для локальных кодинг-агентов. Если есть пара свободных видеокарт (или есть стойкость терпеть квантование на одной), это, возможно, лучшая рабочая лошадка на сегодня.
📌Лицензирование: MIT License.
🟡Модель
🟡Квантованные варианты под все
🟡Demo1
🟡Demo2
@ai_machinelearning_big_data
#AI#ML#LLM#GLM#ZAI
⚡️GLM-5 выкатили в опен-сорс.
Не прошло и суток с момента релиза, а Zhipu AI выложила веса GLM-5 и любезно поделилась проведенными бенчмарками.
Архитектура пятого поколения построена на MoE: 744 млрд. общих параметров при активных 40 млрд. Модель учили на 28,5 трлн. токенов и она получила контекстное окно в 200 тыс. токенов.
GLM-5 ориентирован на 5 доменов: кодинг, рассуждение, агентные сценарии, генеративное творчество и работа с длинным контекстом.
Для эффективной обработки длинных последовательностей интегрирован механизм Dynamically Sparse Attention от DeepSeek, он позволяет избежать квадратичного роста копьюта без потери качества.
По бенчмаркам GLM-5 занимает 1 место среди open-source моделей: 77,8% на SWE-bench Verified, лидирует на Vending Bench 2, BrowseComp и MCP-Atlas, а в задачах агентного кодирования и рассуждений вплотную подбирается к Claude Opus 4.5 и GPT-5.2.
Вместе с моделью, авторы предлагают Z Code — собственную агентную IDE с поддержкой параллельной работы нескольких агентов над одной задачей.
Локальный деплой поддерживается vLLM и SGLang, а также non-NVIDIA чипами: Huawei Ascend, Moore Threads, Cambricon (через квантование и оптимизацию ядер).
Если вам негде поднять модель локально, она доступна через платформу chat.z.ai, API и на OpenRouter.
Квантованные версии пока сделали только Unsloth, традиционно - полный набор от 1-bit до BF16.
И да, стэлс-модель PonyAlpha на OpenRouter - это она и была.
📌Лицензирование: MIT License.
🟡Статья
🟡Модель
🟡GGUF
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#GLM5#ZAI
🌟GLM-4.5 и GLM-4.5-Air: релиз гибридных моделей, заточенных под агентные задачи.
В новом семействе GLM, Z.AI объединили в одной модели возможности для рассуждений, кодинга и агентных сценариев. Семейство построено на архитектуре MoE и может работать в двух режимах: thinking mode для сложных задач с использованием инструментов и non-thinking mode для быстрых ответов.
🟡В релиз вошли:
🟢GLM-4.5 с 355 млрд. общих параметров (32 млрд активных) и ее облегченная версия;
🟠GLM-4.5-Air, облегченная версия со 106 млрд. общих параметров (12 млрд активных).
Интересно, что разработчики пошли по пути увеличения глубины модели (количества слоев), а не ширины (скрытого измерения), так как обнаружили, что модели с большим количеством слоев лучше справляются с рассуждениями.
🟡 Для эффективного RL таких крупных моделей был разработан и открыт собственный фреймворкslime.
Он поддерживает как синхронное, так и асинхронное обучение, что критически важно для агентных задач. Его инфраструктура полностью разделяет движки для роллаутов (сбора опыта) и движки для обучения, которые могут работать на разном железе.
🟡Главный акцент GLM-4.5 - агентные возможности.
Для их оценки использовались 3 бенчмарка. На TAU-bench модель GLM-4.5 показала результат в 70.1 балла, что практически идентично Claude 4 Sonnet (70.3) и заметно лучше, чем у o3 (61.2).
На бенчмарке для вызова функций Berkeley Function Calling Leaderboard v3 результат составил 77.8, снова опережая Claude 4 Sonnet с ее 75.2 баллами.
Но самый показательный результат был на BrowseComp, сложном тесте для веб-браузинга. В нем GLM-4.5 набрала 26.4, что выше, чем у Claude-4-Opus (18.8) и почти как у o4-mini-high (28.3).
Что касается классических задач на рассуждения, здесь модели показывают уверенные, хотя и не рекордные, результаты.
На MMLU Pro у GLM-4.5 84.6 балла, чуть меньше, чем у Claude 4 Opus (87.3) и Grok 4 (86.6).
В математическом тесте AIME24 модель набрала 91.0, ближайшие лидеры Qwen3 и Grok 4 - 94.1 и 94.3 соответственно.
На GPQA разрыв побольше: 79.1 у GLM-4.5 против 87.7 у Grok 4, а на сложном тесте по научной литературе HLE модель получила 14.4 балла, уступив Gemini 2.5 Pro (21.1) и Grok 4 (23.9).
В задачах, связанных с кодом, на тесте SWE-bench Verified модель набрала 64.2 балла, немного уступая Claude 4 Sonnet (70.4) и o3 (69.1), но опережая многие другие.
А вот в агентном кодинге, который оценивался людьми с помощью Claude Code, картина иная. В прямом сравнении GLM-4.5 выигрывает у Kimi K2 в 53.9% случаев и обходит Qwen3-Coder с винрейтом 80.8%.
Самый важный показатель - успешность вызова инструментов, где GLM-4.5 достигла 90.6%, опередив Claude-4-Sonnet (89.5%) и Kimi-K2 (86.2%).
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#GLM#MoE#ZAI
📌Как создавали RL-агент AutoGLM-OS, который выбил SOTA на OSWorld, обогнав OpenAI и Anthropic.
Автономные агенты, способные управлять рабочим столом - это Грааль современного HCI. Но их обучение сопряжено с трудностями: GUI созданы для людей, а не для машин, а масштабирование RL упирается в неэффективность и нестабильность сред.
В Z.ai сделали фреймворк COMPUTERRL, который лег в основу агента AutoGLM-OS. Результат - state-of-the-art на бенчмарке OSWorld: 48.1% успешных выполнений и это лучше, чем у OpenAI CUA 03 (42.9%), UI-TARS-1.5 (42.5%) и Claude 4.0 Sonnet (30.7%).
OSWorld — это крупный бенчмарк из 369 заданий для проверки многомодальных ИИ-агентов в реальных условиях. Он работает в Ubuntu, Windows и macOS.
В нем ИИ выполняет открытые задачи: работает с веб- и десктопными приложениями, управляет файлами, запускает процессы. Каждое задание имеет четкие начальные условия и скрипты для оценки, чтобы результаты можно было воспроизвести.
Такие высокие показатели - результат комбинации 3-х инноваций.
🟡Новая парадигма взаимодействия API-GUI.
Фреймворк объединяет GUI-взаимодействия с быстрыми и точными API-вызовами образуя систему, которая через LLM автоматически анализирует примеры задач, генерирует необходимый API-код для стандартных приложений Ubuntu и даже создает для него базовые тесты.
Таким образом, агент использует быстрые API там, где это возможно, и переключается на GUI для общих задач, что повышает и скорость, и надежность. Абляция показала, что переход от GUI-only к API-GUI поднимает средний показатель успеха с 11.2% до 26.2%.
🟡Масштабируемая распределенная RL-инфраструктура.
OSWorld крайне ресурсоемок, и запуск множества его экземпляров на одном узле это тот еще квест. Z.ai полностью переработали эту среду, используя qemu-in-docker для легковесного развертывания VM, gRPC для связи между узлами и полностью асинхронный фреймворк AgentRL. Это позволило создать кластер из тысяч параллельных виртуальных сред, к котором онлайн-обучение RL-агентов стало максимально эффективным.
🟡Стратегия обучения Entropulse.
Entropulse решает проблему коллапса энтропии, чередуя фазы RL с периодическими сессиями SFT. Во время RL-фазы собираются все успешные траектории, и на их основе формируется новый SFT-датасет. Затем модель дообучается на этом датасете, что позволяет восстановить её исследовательскую способность без потери производительности. После этого запускается вторая, более эффективная фаза RL.
Эта стратегия позволила AutoGLM-OS, построенному на базе 9B GLM-4, достичь финального результата в 48.1%, в то время как после первой RL-фазы показатель был 42.0%.
🟡Arxiv
@ai_machinelearning_big_data
#AI#ML#Agents#AutoGLM#Zai
Bitcoin Caps and Central Banks
🌍 *Salvador Nasralla*, Honduras' leading presidential candidate, recently wore a Bitcoin cap in an interview.
💬 *Michael Saylor* claims Bitcoin at $100,000 is still a 90% discount.
📉 In a dramatic case on Chinese Twitter, a recent fight between a BTC whale and founder of Solv Protocol led to the creation of the *ZachAI* ($ZAI) token, with the whale dumping on followers post-launch.
🇨🇿 Czech Central Bank is considering BTC as a reserve asset.
🔥 50 million USDC burned at USDC Treasury.
🏗️ President-elect Trump announces $20 billion investment in new data centers in the U.S.
#Bitcoin#BTC#Crypto#USDC#Solv#AI#ZAI#CzechRepublic#Honduras#Investment#Trump#DataCenters#Curve#Treasury#Ethereum#Blockchain#CryptoWhale#Fantom#Sonic