Содержимое
⚡️Zai выпустила GLM-5V-Turbo: мультимодальную кодинг-модель. Китайская Zhipu AI, работающая на международном рынке под брендом Zai, представила GLM-5V-Turbo - мультимодальную модель, которая обрабатывает изображения, видео и текст для кодинг-задач. Не путать новинку с вышедшей двумя неделями ранее GLM-5-Turbo: та была чисто текстовой языковой моделью, оптимизированной под агентные сценарии. В модели GLM-5V-Turbo реализован концепт цикла восприятие → планирование → исполнение для кодинг-агентов. Модель принимает на вход дизайн-макет или скриншот интерфейса, понимает компоновку, цветовую палитру и иерархию компонентов, после чего генерирует работающий фронтенд-проект. Для вайрфреймов она восстанавливает структуру и логику взаимодействия, для макетов стремится к попиксельной точности воспроизведения. Помимо прямой генерации кода по картинке, GLM-5V-Turbo работает в связке с Claude Code и OpenClaw: просматривает целевые сайты, собирает визуальные элементы и детали навигации, а затем генерирует код по результатам исследования. Под капотом визуальный энкодер CogViT и архитектура Multi-Token Prediction. Контекстное окно составляет 200K токенов, максимальный выход - 128K токенов. По собственным бенчам Z.ai заявляет лидирующие результаты в задачах design-to-code, визуальной генерации кода и работы с GUI-средами - AndroidWorld и WebVoyager. При этом в чисто текстовом кодинге модель сохранила позиции по CC-Bench-V2: добавление визуальных возможностей не просадило текстовые навыки. Независимых подтверждений этих результатов пока нет. Модель доступна через API Z.ai и на OpenRouter. Цена - $1,20 за миллион входных токенов и $4,00 за миллион выходных. @ai_machinelearning_big_data #news#ai#ml