↗️Как быстро собрать сложную схему с ИИ
Есть бесплатная платформа draw.io - онлайн-редактор для схем, диаграмм, архитектуры. Работает из РФ прекрасно, не требует регистрации. Можно рисовать воронки, майндмэпы, флоу процессов, всё что угодно. По умолчанию нужно рисовать ручками. Но для больших проектов неудобно.
➡️Провели эксперимент: создание уже готовых схем для draw.io через ИИ. Взяли спецификацию ТГ-бота на 1700 строк - с сущностями, роутером, 16 FSM-состояниями, интеграциями. Загрузили файл + промпт с описанием задачи: собрать это всё красиво в схему.
❓Над задачей работали GPT и Claude. На видео показываем, как это всё быстро происходит. Обе нейронки выдали готовый файл, который просто открывается в draw.io и на рабочем поле вырастает структура.
Claude справился лучше: 7 чётких зон, структура читается, цвета работают. GPT выдал всё, но визуально — стена, сложнее ориентироваться. У обеих нейронок есть блоки, которые поехали по размеру. Но это мелочи, легко тут же правится.
На более простых схемах Claude даёт просто идеальную картинку, которую тут же можно экспортировать в PDF или JPEG. Качество экспорта хорошее. Всё чётко видно.
💡Что важно указать в промпте, чтобы не получить месиво из блоков со стрелками во все стороны:
◽️ Зоны визуально разделены (фоны или swimlanes)
◽️ Цветовое кодирование для разных типов элементов
◽️ Стрелки угловые (orthogonal), не диагональные
◽️ Легенда с обозначениями
◽️ Результат: файл .drawio
#ИИ#AI#Нейросети#drawio
———
#Инструменты#Схемы
✍️ Подписывайтесь: @aiforproduct
🗣Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса)
Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.
Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик
Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.
▪GitHub: https://github.com/QwenLM/Qwen3-TTS
▪Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
▪Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
▪Блог: https://qwen.ai/blog?id=qwen3tts-0115
▪Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
@ai_machinelearning_big_data
#AI#TTS#Qwen#OpenSource#SpeechAI
📌Как создавали RL-агент AutoGLM-OS, который выбил SOTA на OSWorld, обогнав OpenAI и Anthropic.
Автономные агенты, способные управлять рабочим столом - это Грааль современного HCI. Но их обучение сопряжено с трудностями: GUI созданы для людей, а не для машин, а масштабирование RL упирается в неэффективность и нестабильность сред.
В Z.ai сделали фреймворк COMPUTERRL, который лег в основу агента AutoGLM-OS. Результат - state-of-the-art на бенчмарке OSWorld: 48.1% успешных выполнений и это лучше, чем у OpenAI CUA 03 (42.9%), UI-TARS-1.5 (42.5%) и Claude 4.0 Sonnet (30.7%).
OSWorld — это крупный бенчмарк из 369 заданий для проверки многомодальных ИИ-агентов в реальных условиях. Он работает в Ubuntu, Windows и macOS.
В нем ИИ выполняет открытые задачи: работает с веб- и десктопными приложениями, управляет файлами, запускает процессы. Каждое задание имеет четкие начальные условия и скрипты для оценки, чтобы результаты можно было воспроизвести.
Такие высокие показатели - результат комбинации 3-х инноваций.
🟡Новая парадигма взаимодействия API-GUI.
Фреймворк объединяет GUI-взаимодействия с быстрыми и точными API-вызовами образуя систему, которая через LLM автоматически анализирует примеры задач, генерирует необходимый API-код для стандартных приложений Ubuntu и даже создает для него базовые тесты.
Таким образом, агент использует быстрые API там, где это возможно, и переключается на GUI для общих задач, что повышает и скорость, и надежность. Абляция показала, что переход от GUI-only к API-GUI поднимает средний показатель успеха с 11.2% до 26.2%.
🟡Масштабируемая распределенная RL-инфраструктура.
OSWorld крайне ресурсоемок, и запуск множества его экземпляров на одном узле это тот еще квест. Z.ai полностью переработали эту среду, используя qemu-in-docker для легковесного развертывания VM, gRPC для связи между узлами и полностью асинхронный фреймворк AgentRL. Это позволило создать кластер из тысяч параллельных виртуальных сред, к котором онлайн-обучение RL-агентов стало максимально эффективным.
🟡Стратегия обучения Entropulse.
Entropulse решает проблему коллапса энтропии, чередуя фазы RL с периодическими сессиями SFT. Во время RL-фазы собираются все успешные траектории, и на их основе формируется новый SFT-датасет. Затем модель дообучается на этом датасете, что позволяет восстановить её исследовательскую способность без потери производительности. После этого запускается вторая, более эффективная фаза RL.
Эта стратегия позволила AutoGLM-OS, построенному на базе 9B GLM-4, достичь финального результата в 48.1%, в то время как после первой RL-фазы показатель был 42.0%.
🟡Arxiv
@ai_machinelearning_big_data
#AI#ML#Agents#AutoGLM#Zai
🌟MoVieS: Синтез 4D-видов с учетом движения.
ByteDance в соавторстве с Пекинским университетом и Карнеги Меллон разработали MoVieS, feed-forward модель, которая из обычного монокулярного видео за секунду синтезирует полноценную 4D-сцену, объединяя в себе геометрию, внешний вид и, что самое важное, движение.
В основе метода лежит идея представления динамической сцены с помощью «динамических сплэттер-пикселей». Если вы знакомы с 3D Gaussian Splatting, то поймете сразу: модель представляет каждый пиксель входного видео как гауссов примитив в 3D-пространстве.
Новизна MoVieS в том, что она не просто определяет их статичные параметры (положение, цвет, прозрачность), но и предсказывает вектор их движения во времени. Иными словами, для каждой частицы в сцене модель знает, где она будет в любой заданный момент.
Архитектурно MoVieS построена на геометрически предобученном трансформере VGGT, который обрабатывает кадры видео. Далее в дело вступают три специализированные «головы»:
🟠Depth Head - предсказывает карту глубины;
🟠Splatter Head - отвечает за атрибуты самих гауссовых сплэттеров для рендеринга;
🟢Motion Head - самая главная, оценивает смещение каждого примитива.
Такой единый фреймворк позволяет обучать модель на самых разнородных датасетах: где-то есть разметка глубины, где-то - трекинг точек, а где-то - только видео.
MoVieS - это еще про скорость. Согласно техотчету, на генерацию сцены уходит меньше секунды (0.93 с), тогда как у альтернативных методов на это уходят десятки минут.
При этом качество на бенчмарках динамических сцен (DyCheck и NVIDIA) либо на уровне, либо превосходит SOTA решения.
Но самое интересное - это zero-shot возможности. Модель, обученная по сути на задаче синтеза новых ракурсов, внезапно оказывается способна без всякого дополнительного обучения сегментировать движущиеся объекты и оценивать scene flow (попиксельный поток в 3D). Достаточно просто посмотреть на предсказанные векторы движения.
⚠️Кода для инференса, обучения и чекпоинтов пока нет, но обещают.
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#4D#MoVieS#ByteDance
💥🛰️«Герань-2» вышла из зависимости отGPS: теперь дрон-камикадзе — почти неуязвим!
⚙️ Российские дроны-камикадзе «Герань-2» получили искусственный интеллект и ТВ/ИК-датчики наведения, полностью отказавшись от GPS! Теперь они используют 4G-мобильные сети, что делает их практически неуязвимыми для РЭБ. 📡🤖
💣 Помимо этого, «Герани» стали почти вдвое мощнее:
🔺 Боевая часть увеличена с 50 до 90 кг
💥 Комбинированный заряд:
— Кумулятивный
— Фугасный
— Осколочный
— Воспламеняющий
🛫 Максимальная высота полёта — до 4900 м, что выводит дрон за пределы досягаемости мобильных ЗРК.
🎯 Новый облик «Герани» — это не просто обновление, это переход к автономному высокоточному оружию, которое умеет видеть, ориентироваться и поражать цель без внешних каналов управления.
💬 *«Теперь это не просто дрон, а разумная боевая платформа»*, — отмечает военный эксперт Евгений Даманцев.
#Герань2#ДроныКамикадзе#ИскусственныйИнтеллект#БПЛА#РЭБ#ВоенныеТехнологии#GPS#ВойнаБудущего#Технологии#Оружие#Армия#Беспилотники#DroneWarfare#AI#4G#Z
学校争相应对 AI 作弊
随着人工智能 (AI) 技术的快速发展,美国各地的学校正面临着学生利用 AI 辅助工具作弊的挑战。调查显示,约90% 的大学生曾在作业中使用过 AI,13至17岁的青少年中,使用 AI 辅助学业的比例也翻了一番。学校管理者对这一趋势表示担忧,并强调了教育者需要适应这一变化。然而,关于如何应对 AI 作弊,以及 AI 在教育中的作用,学校内部尚未达成共识。一些教育工作者认为 AI 具有帮助学生的潜力,并主张学校应该教导学生如何正确使用 AI。Axios
🏷#AI#作弊#教育#学生
📢频道👥群组📝投稿
🚀 Exciting News from OpenAI! 🤖✨
OpenAI is reviving its Robotics Initiative, and it's as ambitious as ever! They're hiring for roles to develop versatile, adaptive robots equipped with custom sensors—robots that aim to operate with human-like intelligence in real-world settings. 🌎🤖
Imagine robots navigating our world with the power of OpenAI's cutting-edge AI models—helping, innovating, and making life better for everyone. 🌟
This is a huge step in bringing AI into the physical world, and we can't wait to see what they'll achieve! 🙌
💡 Thoughts on this exciting development? Drop them in the comments below! ⬇️
➖➖➖➖🔻
💎@Chatgpt_OfficialNewsjoin US ⚡️
🤖BOT:@Chatgpt_OfficialBOT
📱#ChatGPT#AI#OpenAI#Robotics#AIInnovation#FutureOfAI#TechNews
➖➖➖➖🔺