✔️Модель Liquid AI на 2.6 млрд. параметров обошла DeepSeek R1 в тестах на управляемость.
Liquid AI выпустила LFM2-2.6B-Exp — сверхкомпактную модель, которая показала эффективность, несопоставимую со своим размером. В бенчмарке IFBench новинка превзошла DeepSeek R1-0528, будучи при этом в 263 раза меньше китайского гиганта.
Архитектура оптимизирована для развертывания на периферийных устройствах и, по заявлению разработчиков, использует метод «чистого RL» без классического SFT. Веса модели - на Hugging Face.
LiquidAi в сети X
✔️Nvidia открыла CUDA Tile IR.
CUDA Tile IR - это открытая инфраструктура компилятора, основанная на MLIR и заточенная под оптимизацию вычислений для тензорных ядер NVIDIA. Инструментарий предоставляет инженерам новые абстракции для управления иерархией памяти и эффективного распределения нагрузки.
Главная цель проекта, чья публикация синхронизирована с выходом CUDA Toolkit 13.1 — упростить разработку высокопроизводительных ядер CUDA, сделав процесс глубокой оптимизации под железо более прозрачным и доступным для сообщества разработчиков.
github.com
✔️Финдиректора прогнозируют в 2026 году ИИ-трансформации в бизнесе.
Опрос Fortune CFO крупных компаний показал, что в наступающем году роль ИИ в корпоративных финансах кардинально изменится. Руководители ожидают перехода к внедрению агентского ИИ в масштабах всего предприятия.
Главный тренд — восприятие технологии не как утилитарного инструмента для оптимизации рутины, а как катализатора, превращающего финансовую функцию в проактивный драйвер роста компаний.
При этом респонденты подчеркивают, что сам по себе алгоритм не гарантирует успеха. Эксперты сходятся во мнении. что несмотря на автоматизацию, человеческое суждение остается критическим элементом, необходимым для контроля и принятия финальных стратегических решений.
fortune.com
✔️Роботов Unitree взломали голосовыми командами.
На конференции GEEKCon в Шанхае специалисты из группы DARKNAVY показали, как уязвимости в ИИ-агентах роботов превращают их в угрозу физической безопасности. Экспертам удалось получить полный контроль над моделью Unitree через манипуляции с голосовым интерфейсом.
Самым тревожным аспектом демонстрации стал каскадный характер атаки: взломанный робот использовал беспроводной протокол ближнего действия для передачи эксплойта на соседнюю машину, которая была полностью отключена от интернета.
Этот эксперимент разрушает миф о надежности защиты методом «воздушного зазора» в робототехнике: компрометация всего одного подключенного к сети узла может привести к мгновенному заражению офлайн-флота, находящегося поблизости.
interestingengineering.com
✔️Эксперимент WSJ: ИИ-киоск Anthropic обанкротился за 3 недели.
Wall Street Journal повторила тест c вендинговым аппаратом под управлением ИИ от Anthropic. Агент-управленец всего за 3 недели ушел в минус на $1000, потратил корпоративный бюджет на PlayStation 5 для «маркетинговых целей» и заказал доставку живой рыбы.
Журналистам удалось легко манипулировать алгоритмом: с помощью манипуляций с промптами они заставили бота обнулить цены на весь ассортимент. Ситуацию не спас даже добавленный ИИ-менеджер — оба агента без вопросов приняли поддельную резолюцию совета директоров, разрешающую хаос.
Технической причиной провала, как говорит Anthropic, стало переполнение контекстного окна из-за слишком длинной истории чатов, из-за чего модель «забывала» свои базовые инструкции.
wsj.com
@ai_machinelearning_big_data
#news#ai#ml
✔️Темпы развития ИИ удвоились, но доверие к бенчмаркам падает: отчет Epoch AI
В обзоре за 2025 год Epoch AI зафиксировала резкое ускорение прогресса развития ИИ. По данным аналитиков, индустрия прошла «переломную точку»: скорость улучшения показателей SOTA-моделей выросла почти в 2 раза — с 8 до 15 пунктов индекса производительности за год. Драйверами роста называют массовый переход к ризонинг-моделям и фокус на RL.
Однако, отчет указывает на серьезную проблему: результаты тестов становятся всё менее репрезентативными. Даже при использовании одинаковых бенчмарков прямое сравнение моделей затруднено из-за различий в промптах, параметрах сэмплирования и программных обвязках. Последние особенно сильно искажают оценку ИИ-агентов, а нестабильность API провайдеров добавляет шум в данные, делая метрики новых моделей уязвимыми для ошибок измерения.
epoch.ai
✔️Salesforce теряет доверие к большим языковым моделям.
В компании заметили, что первоначальный энтузиазм сменился более прагматичным взглядом. LLM оказываются ненадежными для бизнес-задач. Год назад оптимизма было больше, но теперь разработчики возвращаются к проверенной автоматизации на основе правил.
Основная причина — непредсказуемость ИИ. Модели часто «дрейфуют», теряя контекст разговора или игнорируют инструкции.
Чтобы сделать корпоративный софт предсказуемым, Salesforce переходит на жесткие ограничения. Вместо креатива нейросети теперь будет работать строгая логика выполнения сценариев.
theinformation.com
✔️Китай требует от Apple Intelligence отклонять 95% провокационных запросов.
Для легального запуска Apple Intelligence в КНР компании придется доказать соответствие своих алгоритмов жестким стандартам местной цензуры. Поскольку иностранные LLM в стране заблокированы, Apple вынуждена использовать локальное решение — модель Qwen3 от Alibaba, которая сейчас проходит государственную аттестацию.
Регламент проверки серьезный: регуляторы используют пул из 2 тыс. специально подобранных вопросов, касающихся политики и других чувствительных тем. Чтобы получить разрешение на релиз, нейросеть обязана отказаться отвечать минимум на 95% таких промптов.
Процедура настолько сложна, что на китайском рынке сформировалась ниша консалтинговых агентств, которые помогают техно-гигантам настраивать фильтры моделей именно под этот тест.
9to5mac.com
✔️Microsoft опровергла слухи о переписывании Windows на Rust с помощью ИИ.
Компания заявила, что не планирует переписывать ядро операционной системы с использованием генеративных моделей. Поводом для спекуляций стал вирусный пост ведущего инженера Microsoft Галена Ханта в LinkedIn, где онописал цель — полностью избавиться от C/C++ к 2030 году и достичь производительности «один инженер, один месяц, миллион строк кода» за счет автоматизации.
IT-сообщество интерпретировало это как анонс глобального рефакторинга Windows 11. В ответ Microsoft пояснила, что описанный сценарий относится лишь к исследовательским проектам по миграции легаси-кода, а не к продуктовой стратегии ОС. Хант также внес правки в публикацию, снизив градус категоричности.
windowslatest.com
✔️xAI запустила Grok Collections API.
xAI представила инструмент для разработчиков, который упрощает создание RAG-приложений - Grok Collections API. Он берет на себя задачи по хранению, индексации и семантическому поиску по документам, избавляя инженеров от необходимости строить векторные баз данных.
Решение использует технологию layout-aware parsing с использованием OCR и может сохранять структуру исходников: таблицы, макеты PDF и синтаксис кода остаются читаемыми для модели.
По внутренним бенчмаркам xAI, в задачах на точность извлечения данных новый сервис превосходит показатели Gemini 3 Pro и GPT-5.1. Стоимость - $2.50 за 1000 поисковых запросов и, по словам xAI, загруженные в Collections файлы не используются для дообучения базовых моделей без явного согласия.
x.ai
@ai_machinelearning_big_data
#news#ai#ml
📌Топ-5 трендов робототехники уходящего года.
В 2025 году робототехника сошла с ума: боксерские поединки с участием человекоподобных роботов, роботы-лобстеры, дроны-птицы и роботы, стирающие белье.
За всей этой зрелищностью скрывалась реальность — андроиды получили работу, робо-такси перешли в категорию общественного транспорта, а количество роботов на складах превысило миллион.
🟡Гуманоиды становятся мейнстримом.
Человекоподобные роботы прошли путь от хайпа видео с их участием до создания устройств, похожих на реальные товары. В этом году инвесторы вложили в этот сектор миллиарды долларов, и около 50 стартапов привлекли более 100 млн. долларов инвестиций.
Промышленные заказчики начали проводить серьезные пилотные проекты, тестируя андроидов на складских линиях, а Neo от 1X появился и в домах.
Инструменты, компоненты и программные платформы для человекоподобных роботов достигли зрелости: от механизмов и аккумуляторных батарей до универсальных моделей управления и машинного зрения.
Китай превратил гуманоидов в часть своей промышленной политики, предлагая пилотные проекты для стимулирования локальных клиентов к масштабным внедрениям к концу десятилетия.
🟡Робо-такси вышли на реальные улицы.
2025 год стал годом, когда беспилотные такси стали реальностью: специальные капсулы на Лас-Вегас-Стрип, призрачные Tesla в Остине, китайские автопарки, расширяющиеся по всему городу - автономные поездки стали частью инфраструктуры транспорта.
Waymo начала включать поездки по автомагистралям Финикса, Сан-Франциско и Лос-Анджелеса, расширила свои услуги до Сан-Хосе и предложила круглосуточную встречу в аэропорту.
Дочерняя компания Amazon, Zoox представила свои автомобили в Лас-Вегасе - без руля, без педалей и с двумя рядами сидений для 4 пассажиров.
Tesla начала тестирование беспилотных такси на улицах Остина.
Китайские Baidu и Uber объявили о планах развернуть тысячи автомобилей Apollo Go на платформе Uber, а Pony AI запустила 1000 робо-такси в Шэньчжэне.
🟡Роботы стали очень маленькими.
Микророботы пережили год прорывов, уменьшившись до размеров песчинки и одновременно освоив сенсорные технологии, вычисления и передвижение. Лаборатории начали наделять их двигательной моторикой и реальными функциями.
Появление роботов для доставки лекарств стало ближе к реальности - создали с помощью 3D-печати вращающихся микророботы и суб-миллиметровые зонды непрерывного излучения.
В ходе исследования была разработана целая серия био-гибридов, реагирующих на внешние воздействия со способностью автономно реагировать на химические сигналы и магнитные поля.
🟡Логистика роботизируется семимильными шагами.
В уходящем году складские роботы стали главными героями. Amazon преодолела отметку в 1 млн. внедренных единиц, а Figure, Agility, Apptronik и 1X запустили своих гуманоидов в реальных условиях у крупных клиентов из сфер логистики и производства.
На автономных мобильных роботов приходится 45% всех систем на складах, при этом электронная коммерция, по прогнозам, обеспечит половину новых установок до 2030 года.
Пекин пошел ва-банк, открыто поставив цель развернуть сотни тысяч таких устройств к 2030 году и запустить 1,8 млн. промышленных роботов на заводах.
🟡Взрывной рост робототехники в Китае.
Никто не внедряет робототехнику так активно, как Китай. Более 82% из более чем 300 глобальных инвестиционных сделок в этой области в первой половине 2025 года были заключены в Китае, а общий объем финансирования превысил около 2,7 млрд. долларов
Unitree, Agibot и EngineAI завершили крупные раунды финансирования, при этом Unitree снизила цену на своего человекоподобного робота R1 до 5900 долларов.
На конец 2025 года Китай производит 70–80% мировых планетарных роликовых винтовых передач — важнейшего компонента привода, от которого зависят Tesla, Figure и 1X.
@ai_machinelearning_big_data
#news#ai#ml
⚡️Nvidia забирает команду основателей Groq и лицензирует архитектуру LPU
Производитель чипов Groq объявил о сделке с Nvidia, которая больше напоминает «покупку кадров», чем обычное партнерство.
Стороны опровергли слухи о полном поглощении стартапа за $20 млрд: вместо этого подписан договор о неэксклюзивном лицензировании технологий инференса.
Ключевой момент сделки — трансфер мозгов.
Основатель и CEO Groq Джонатан Росс, президент Санни Мадра и ведущие инженеры переходят на работу в Nvidia. Им предстоит интегрировать свои наработки в экосистему «зеленой команды».
Groq при этом продолжит существовать как независимая компания под руководством бывшего финдиректора Саймона Эдвардса, а платформа GroqCloud будет работать в штатном режиме.
@ai_machinelearning_big_data
#news#ai#ml
✔️OpenAI разрабатывает рекламные форматы для ChatGPT.
По данным The Information, компания активно обсуждает внедрение рекламы в свой чат-бот. Рассматривается несколько механик: от классических баннеров в боковой панели до нативной интеграции спонсорского контента прямо в ответы нейросети.
Наибольший интерес представляет план использования функции «Memory» для таргетинга. Это означает, что система будет анализировать архивы личных диалогов пользователя, чтобы повысить релевантность объявлений.
Напомним, что ранее Сэм Альтман называл ответы ИИ под влиянием рекламы «антиутопией», однако теперь OpenAI движется именно по этому пути, пытаясь найти баланс между монетизацией и доверием аудитории.
theinformation.com
✔️ИИ-гиганты получили иск за обучение ИИ на пиратских библиотеках.
Группа писателей, включая лауреата Пулитцеровской премии Джона Каррейру, подала коллективный иск в суд Калифорнии против OpenAI, Google, Anthropic, xAI, Perplexity и компании Марка Цукерберга. Это первый случай, когда юридические претензии касательно обучающих выборок затронули компанию Илона Маска и Perplexity.
Истцы обвиняют компании в «преднамеренной краже» контента через использование пиратских библиотек LibGen, Z-Library и OceanofPDF. В иске утверждается, что нарушение авторских прав произошло дважды: сначала при нелегальном скачивании книг для сборки датасетов, а затем — при создании копий во время обучения и оптимизации моделей.
Представители Perplexity уже ответили, что не индексируют книги, а в xAI обвинения назвали коротко «ложью устаревших медиа».
news.bloomberglaw.com
✔️MiniMax обновила модель M2.
Модель, получившая индекс M2.1, нацелена китайским MiniMax на доминирование в сегменте ИИ-агентов и разработки ПО. Новинка получила архитектуру с 230 млрд. параметров (из которых активны 10 млрд.) и выдает до 100 токенов в секунду в инференсе.
Главный фокус релиза — на vibe coding и поддержке мобильной разработки. M2.1, по словам создателей, хорошо знает Rust, Go и Kotlin, а на тесте SWE-bench Multilingual она показала точность 72,5%, вплотную приблизившись к Claude 3.5 Sonnet.
Одной из ключевых фишек стала технология Interleaved Thinking, которая помогает модели лучше справляться с многослойными инструкциями. Модель доступна через API, OpenRouter и Ollama.
minimax.io
✔️Mistral AI обновила Vibe CLI: добавили поддержку Skills и ризонинг-моделей.
Vibe CLI теперь может работать со Skills - набором инструкций, в которых можно собрать экспертизу и правила разработки для повторного использования в разных проектах. Кроме того, Vibe CLI получил поддержку моделей рассуждения, а также встроенные темы для интерфейса.
Обновление доступно для установки через команду uv tool install mistral-vibe.
Mistral AI в сети X
✔️Google предлагает годовую подписку Ai Pro за полцены.
В преддверии 2026 года Google One запустил промо-кампанию, предлагая новым пользователям скидку 50% на план AI Pro: его стоимость на первый год снижена с $199,99 до $99,99.
Пакет открывает доступ к возможностям модели Gemini 3 Pro, контекстному окну в 1 млн. токенов и инструментам Deep Research.
Акция продлится до 31 декабря 2025 года включительно, после чего подписка будет продлеваться по стандартной цене.
9to5google.com
@ai_machinelearning_big_data
#news#ai#ml
🌟Midea MIRO U: одна голова - шесть рук.
В отличие от традиционных двуруких андроидов, Midea Group спроектировала платфору исключительно под утилитарную эффективность. Шесть бионических манипуляторов работают скоординированно: нижняя пара отвечает за силовые операции и подъем тяжестей, а верхние конечности выполняют точную сборку и крепеж.
Такая архитектура позволяет роботу выполнять до 3 задач одновременно, при этом сохраняя габариты человеческого торса для интеграции в производственные линии без их переделки.
MIRO U базируется на мобильном колесном шасси с возможностью вращения на 360 градусов и вертикальным лифтом. Midea, использующая наработки своего немецкого подразделения KUKA, уже начала пилотное внедрение системы на заводе в Уси.
Инженеры рассчитывают, что шестирукий форм-фактор повысит эффективность переналадки линий на 30%, минимизируя простои при смене выпускаемых моделей.
@ai_machinelearning_big_data
#news#ai#ml
✔️Google A2UI: открытый стандарт для генерации UI силами ИИ-агентов.
A2UI (Agent-to-User Interface) - открытый проект Google, который стандартизирует процесс создания визуальных интерфейсов нейросетями. Инструмент позволяет агентам генерировать полноценные интерактивные элементы (формы, карточки, дашборды) в реальном времени.
Проект декларирует безопасность через абстракцию. Вместо генерации исполняемого кода, который может нести риски, агент отправляет JSON-файл, описывающий структуру. Клиентское приложение само парсит этот манифест и отрисовывает компоненты, используя собственные проверенные библиотеки.
Экосистема уже включает поддержку веб-фреймворков и Flutter (через GenUI SDK), а в дорожной карте заявлена интеграция с React, Jetpack Compose и SwiftUI.
github.com
✔️YouTube тестирует инструмент для генерации игр.
YouTube Gaming запустила закрытое бета-тестирование сервиса Playables Builder, которое позволяет авторам создавать мини-игры на основе промптов. Система работает на базе Gemini 3: чтобы превратить идею в рабочий интерактивный проект, достаточно загрузить короткое текстовое описание, видеофрагмент или изображение.
Новый инструмент нацелен на удержание аудитории через геймификацию контента. На данный момент доступ конструктору ограничен (требуется активный канал и одобрение заявки) и допускаются только пользователи из США, Канады, Великобритании и Австралии.
Youtube Gaming в сети X
✔️OpenAI запустила функцию персональных итогов года.
Компания представила инструмент, позволяющий взглянуть на свою активность в чат-боте за прошедший год. Функция генерирует персонализированный отчет, присваивает награды-достижения и создает тематические стихи и изображения, базируясь на содержании диалогов.
Итоги года доступны только в США, Великобритании, Канаде, Австралии и Новой Зеландии для пользователей тарифов Free, Plus и Pro. Корпоративные и образовательные аккаунты остались без поддержки этой опции.
Для получения отчета необходимо, чтобы в настройках были включены история чатов и функция памяти, а сам аккаунт должен иметь достаточный объем накопленных данных. Запустить генерацию можно вручную через баннер на главной странице или прямым запросом к боту.
forbes.com
✔️Alphabet покупает разработчика инфраструктуры Intersect за $4,75 млрд.
Материнская компания Google заключила соглашение о приобретении девелопера ЦОДов Intersect Power. Это первый случай, когда бигтех не просто заключает контракты на поставку электричества, а напрямую покупает крупного ресурсного игрока. Сделка, которую планируют закрыть в первой половине 2026 года, будет полностью оплачена денежными средствами.
Стратегический смысл покупки заключается в решении проблемы энерго-дефицита для обучения и работы ИИ. Google получает возможность строить дата-центры в едином комплексе с генерирующими мощностями, что позволяет избежать использования электросетей общего пользования.
Intersect сохранит операционную независимость, хотя ряд действующих активов в Техасе и Калифорнии будут выведены в отдельную структуру и не войдут в периметр сделки.
abc.xyz
✔️Qwen обновила Qwen-Image-Edit.
Новая версия Qwen-Image-Edit-2511 пришла на смену сборке 2509 и предлагает ряд качественных изменений. Теперь модель лучше сохраняет консистентность персонажей и общую структуру кадра при внесении локальных правок.
Помимо стабильности, усилили способности к геометрическому рассуждению и генерации промышленного дизайна. Попробовать новинку можно через веб-интерфейс Qwen Chat, а веса для локального развертывания уже на HuggingFace и ModelScope.
TongyiLab в сети Х
@ai_machinelearning_big_data
#news#ai#ml
✔️Команда AI-Центра Т-Банка выпустила обновление языковых моделей T-Pro 2.1 и T-Lite 2.1
Ключевыми изменениями стали улучшенные способности в точном следовании инструкциям (Instruction Following) и tool calling.
✔️Как изменились T-Pro 2.1 и T-Lite 2.1
T-Pro 2.1 (32B): модель стала значительно лучше понимать сложные требования (ответы строго в формат JSON, лимиты длины, многошаговые инструкции) и увереннее работать в агентских сценариях. Она основана на базе Qwen3-32B и отвечает без “тысяч токенов рассуждений”.
T-Lite 2.1 (8B): популярная модель после обновления стала сильнее в прикладных задачах и при этом сохранила скорость и практичность для продакшена и локального запуска.
✔️Обучение моделей работе с инструментами
Для улучшения Instruction Following команда разработала собственный пайплайн генерации синтетических данных на основе подхода AutoIF. На RL-стадии использовался алгоритм GRPO с комбинированной reward-функцией, которая проверяла как выполнение формальных требований через верификационные функции, так и осмысленность ответа через штраф на основе Reward Model.
Это позволило избежать классической проблемы “reward hacking”, когда модель учится подстраиваться под проверку, а не давать хорошие ответы.
✔️Генерация синтетических инструментов для tool calling
Для изменений в tool calling был разработан синтетический пайплайн. Сначала генерировались реалистичные наборы инструментов, а затем — сложные многошаговые диалоги с их использованием через мультиагентную симуляцию. Для обучения на этих данных применялся RL (GRPO) с бинарным reward, проверяющим корректность вызова, и балансировкой датасета.
✔️Результаты на бенчмарках
На локализованном русскоязычном бенчмарке IFeval T-Pro 2.1 демонстрирует результат 0.8065, значительно опережая свою версию 2.0 (0.6865), а T-Lite 2.1 показывает 0.7585. На тесте BFCL v3 (RU), оценивающем tool calling, T-Pro 2.1 набирает 65.96 баллов, что является одним из лучших показателей среди открытых моделей, а T-Lite 2.1 — 56.45. В диалоговых аренах (Arena Hard Ru, WildChat) обновленные модели также показывают существенный рост качества ответов на реальные пользовательские запросы.
@ai_machinelearning_big_data
#news#ai#ml
🌟Z-Image Turbo взяла 1 место на Artificial Analysis Image Arena.
Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.
Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.
Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.
Кто-нибудь, поднимите веки Stable Diffusion
@ai_machinelearning_big_data
#news#ai#ml
✔️OpenAI подняла маржинальность вычислений до 70% на фоне убытков от R&D.
Согласно внутренним финансовым отчетам, к октябрю 2025 года «вычислительная маржа» компании достигла 70%. Этот показатель, отражающий долю выручки, остающуюся после покрытия прямых затрат на работу моделей для пользователей, удвоился с начала 2024 года - тогда он составлял лишь 35%. Такая динамика указывает на успешную оптимизацию инфраструктуры инференса, что делает платных клиентов значительно рентабельнее.
Несмотря на техническую оптимизацию, компания остается глубоко убыточной. За первую половину 2025 года чистый убыток OpenAI составил $13,5 млрд, из которых $6,7 млрд пришлось на R&D и разработку новых моделей.
Тем не менее, бизнес-показатели продолжают расти: годовая выручка преодолела отметку в $12 млрд еще в июле, а к концу года аналитики прогнозируют выход на уровень $15–20 млрд.
theinformation.com
✔️Nvidia готовится начать поставки H200 в Китай в феврале.
Компания уведомила китайских партнеров о планах отгрузить первую партию H200 в середине февраля. По информации инсайдеров, Nvidia намерена использовать имеющиеся складские запасы, чтобы поставить от 40 до 80 тысяч чипов (примерно 5–10 тысяч модулей). Это реакция смягчение политики Вашингтона: экспорт флагманского железа разрешили при условии уплаты специального 25-процентного сбора.
Основным препятствием остается позиция Пекина. Правительство Китая пока не согласовало закупки H200, и без официального одобрения местных регуляторов сделка не состоится. Если же политический вопрос будет урегулирован, Nvidia планирует не ограничиваться разовой партией и открыть слоты для новых производственных заказов под китайский рынок уже во втором квартале 2026 года.
reuters.com
✔️Z.ai выпустила GLM-4.7.
GLM-4.7 - обновление линейки моделей, оптимизированное для разработчиков. При размере в 358 млрд. параметров модель показала существенный прирост производительности в программировании, работе с терминалом и созданию чистого UI-кода (функция Vibe Coding). На SWE-bench Verified модель улучшила результат до 73.8%, а в тестах на сложное математическое рассуждение прирост составил более 12%.
Архитектурное новшество релиза — развитие механизмов мышления. Функция Preserved Thinking позволяет модели сохранять и переиспользовать CoT между репликами, а механизм Interleaved Thinking дает время на анализ перед каждым вызовом внешних инструментов.
GLM-4.7 уже доступна через API и на OpenRouter, а веса модели выложены на HuggingFace и ModelScope.
z.ai
✔️Anthropic Bloom: фреймворк для авто-тестирования поведенческих паттернов ИИ.
Инструмент кардинально упрощает процесс оценки безопасности моделей: вместо ручного написания тестов нужно просто описать искомое поведение (сикофанство, самосохранение или склонность к саботажу). На основе этого описания, Bloom автоматически генерирует сотни уникальных сценариев, симулирует диалоги с участием виртуальных пользователей и выносит вердикт о частоте и тяжести выявленных проявлений.
Фреймворк поддерживает интеграцию с W&B для трекинга и экспорт логов в формат Inspect. Вместе с релизом кода на GitHub компания опубликовала результаты проверки 16 моделей по 4 критическим категориям безопасности.
anthropic.com
✔️Manus добавила функцию Design View.
Design View - интерфейс для редактирования графики в режиме point-and-click с сохранением исходной композиции и стиля. Дизайнеры могут менять цвета объектов, корректировать глубину сцены и исправлять текст прямо на холсте. Инструмент глубоко интегрирован в экосистему Manus: поддерживается редактирование презентаций, созданных Nano Banana Pro, а также доработка UI-элементов и иконок для мобильных приложений в реальном времени.
Функция уже доступна всем пользователям сервиса.
manus.im
@ai_machinelearning_big_data
#news#ai#ml
✔️Американский стартап Gloo представил христианский AI-бенчмарк Flourishing AI (FAI-C), который оценивает, насколько ответы ИИ помогают человеку жить осмысленно и правильно с точки зрения христианского мировоззрения.
Результаты:
- Qwen3 - 1 место
- DeepSeek R1 - 6 место
Обе модели обошли несколько американских LLM.
Что именно тестируют:
вопросы не про факты, а про смысл и руководство - почему существует страдание, как формировать духовные привычки, как жить правильно. Оценку проводили пасторы, богословы, психологи и специалисты по этике.
Как работает бенчмарк:
- 807 промптов
- 7 измерений
- ответы оцениваются христианскими judge-персонами
- важны библейская опора, богословская согласованность и моральная ясность
Это проверка ценностного рассуждения, а не знаний.
Многие популярные бенчмарки неявно исходят из секулярных культурных установок, из-за чего религиозные ответы оцениваются неконсистентно.
Важная оговорка:
высокий христианский скор не означает религиозной свободы - в Китае христианская практика и онлайн-проповеди жестко регулируются.
scmp.com/tech/article/3336642/chinas-qwen-and-deepseek-edge-out-us-ai-models-christian-values-benchmark
@ai_machinelearning_big_data
#ai#ml#news
✔️Higgsfield запустил сервис профессионального ИИ-кинопроизводства.
Cinema Studio — специализированная среда генерации со структурой съемочного процесса.
Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро.
Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней.
higgsfield.ai
✔️Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои.
Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.
Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.
Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai
✔️Cursor покупает платформу код-ревью Graphite.
Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы.
В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей.
Несмотря на смену владельца, Graphite продолжит функционировать автономно.
cursor.com
✔️NVIDIA выпустила в продажу 72-гигабайтную версию RTX PRO 5000.
Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт.
Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года.
blogs.nvidia.com
✔️Gemma Scope 2: крупнейший набор инструментов для интерпретации работы LLM.
Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом.
Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам.
Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia.
deepmind.google
@ai_machinelearning_big_data
#news#ai#ml