🌟EX-4D: генерация видео с экстремальными движениями камеры.
EX-4D - совместная разработка ByteDance и Pico, которая предлагает элегантное решение проблемы генерации экстремальных ракурсов камеры для видео.
Методика позволяет генерировать видео с амплитудой угла камеры от -90° до 90°, опираясь на новый тип геометрического представления, Depth Watertight Mesh (DW-Mesh).
В отличие от стандартных методов, которые строят 3D-сцену только из видимых поверхностей, DW-Mesh создает трехмерный замкнутый меш на основе данных о глубине сцены.
Он моделирует не только то, что видит камера, но и пытается логически завершить скрытые от нее области. По сути, система строит цельный геометрический каркас сцены, который сохраняет свою форму даже при взгляде с самых неожиданных углов. Это предотвращает появление разрывов и искажений, когда ранее невидимая часть объекта попадает в кадр.
При создании EX-4D использовали уникальную стратегию обучения, которая не требует многоракурсных видеосетов. Разработчики обошли эту проблему, заставив модель создавать обучающие данные для самой себя.
Используя построенный DW-Mesh, система генерирует маски, симулируя, какие части сцены были бы скрыты при других ракурсах. Этот подход с двумя компонентами, Rendering Mask и Tracking Mask, имитирует реальные условия съемки с разных точек и дает временную согласованность маскировки, обучая модель правильно «додумывать» геометрию.
Вся эта система работает на базе видеомодели Wan2.1 (рекомендуют версию 14B 480p), но не требует ее полной перетренировки. Геометрическая информация от DW-Mesh интегрируется с помощью LoRA-адаптера, он выступает мостом между меш-каркасом и генеративной нейросетью.
В тестах EX-4D обходит TrajectoryCrafter и ReCamMaster, особенно на больших углах. В пользовательских тестах 70 % участников отдали предпочтение видео, сгенерированным EX-4D, отметив физическую консистентность и высокое качество картинки.
⚠️ Локальный запуск потребует значительных ресурсов, особенно для видео высокого разрешения. Помимо Wan2.1, самой EX-4D, еще понадобятся пакеты nvdiffrast от NVlabs и DepthCrafter от Tencent.
В планах: оптимизация инференса, поддержка 1К и 2К разрешения и новые техники уточнения мешей.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#EX4D#ByteDance#Video
🤖 The moment he realized a robot just replaced his job.
在深圳街頭,一台全自動 AI 無人清掃機器人,安靜地完成了原本屬於人類的工作。
👇 留言告訴我 ! 你覺得 AI 是解放人類,還是淘汰人類?
沒抗議、沒公告、沒有倒數。
它只是出現,然後開始工作。
⚠️ 這不是科幻
⚠️ 這不是未來
⚠️ 這是正在發生的現在
當 AI 開始取代「體力+重複性」工作,
下一步會輪到誰?
#AI#Automation#FutureOfWork
#TechTrends#Ethereum#Web3
———
👇⭐️👇
🤣
🥲👇 資源搜索 🖲️👆
Transparency in AI-generated content: EU Commissioner calls for labeling
EU Commissioner Vera Jourova has highlighted the importance of clearly identifying content that is generated or significantly influenced by AI systems. The proposal to label AI-generated content serves multiple purposes: protecting consumer rights, promoting accountability, and enabling individuals to distinguish between human-created and AI-generated information.
The European Commission wants tech companies like Google, Facebook and TikTok to start labeling content created by artificial intelligence without waiting for digital laws to come into effect.
As AI becomes more prevalent in content creation, legal concerns arise regarding authenticity, accountability, and the potential for misinformation. By introducing labeling requirements, the EU aims to provide legal clarity, allowing consumers and authorities to better navigate the digital landscape while holding AI systems accountable for the information they generate.
While the EU takes a proactive stance in regulating AI-generated content, the implications extend beyond its borders. As AI transcends geographical boundaries, the need for transparent labeling practices becomes crucial on a global scale. International collaboration in developing standardized guidelines can enhance consistency and protect users' rights across jurisdictions.
#artificialintelligence#AI#Law#EUCommission
🚛 We’re building the future of freight operations.
Datatruck has raised a $12M Series A round led by Avenue Growth Partners, to accelerate our mission of transforming how carriers manage operations and cash flow through AI-powered automation.
Our AI-native TMS platform unifies dispatch, finance, and digital workflows into one intelligent system — empowering trucking companies to make faster, smarter, and more profitable decisions across their businesses.
This investment will help us expand our product ecosystem, deepen AI capabilities, and scale adoption across North America’s freight network.
We’re just getting started — the road ahead is wide open. 💡
👉 Learn more: Datatruck.io
#freighttech#logistics#transportation#trucking#saas#ai#seriesa#startup#funding
🇪🇺EDPB Pushes Forward with Practical AI Compliance Training for DPOs
The European Data Protection Board (EDPB) has released two new reports under its Support Pool of Experts (SPE) initiative, targeting one of the most pressing regulatory challenges in the EU: aligning AI with data protection law. The reports are designed not as theoretical statements, but as hands-on training tools for professionals grappling with AI systems that process personal data.
✔️Fundamentals of Secure AI Systems with Personal Data focuses on bridging urgent skill gaps in AI development and data protection.
✔️Law & Compliance in AI Security & Data Protection outlines a structured training program for Data Protection Officers (DPOs) to better navigate AI-specific risks. These tools signal the EDPB’s shift toward operationalizing GDPR compliance in the age of AI.
#AI#GDPR#EDPB#DataProtection
🚀 Tencent расширяет экосистему Hunyuan LLM и выкладывают в открытый доступ еще 4 компактных моделей — 0.5B, 1.8B, 4B и 7B!
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
🖥GitHub:
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent#Hunyuan#ml#llm#ai#opensource
🌟GLM-4.5 и GLM-4.5-Air: релиз гибридных моделей, заточенных под агентные задачи.
В новом семействе GLM, Z.AI объединили в одной модели возможности для рассуждений, кодинга и агентных сценариев. Семейство построено на архитектуре MoE и может работать в двух режимах: thinking mode для сложных задач с использованием инструментов и non-thinking mode для быстрых ответов.
🟡В релиз вошли:
🟢GLM-4.5 с 355 млрд. общих параметров (32 млрд активных) и ее облегченная версия;
🟠GLM-4.5-Air, облегченная версия со 106 млрд. общих параметров (12 млрд активных).
Интересно, что разработчики пошли по пути увеличения глубины модели (количества слоев), а не ширины (скрытого измерения), так как обнаружили, что модели с большим количеством слоев лучше справляются с рассуждениями.
🟡 Для эффективного RL таких крупных моделей был разработан и открыт собственный фреймворкslime.
Он поддерживает как синхронное, так и асинхронное обучение, что критически важно для агентных задач. Его инфраструктура полностью разделяет движки для роллаутов (сбора опыта) и движки для обучения, которые могут работать на разном железе.
🟡Главный акцент GLM-4.5 - агентные возможности.
Для их оценки использовались 3 бенчмарка. На TAU-bench модель GLM-4.5 показала результат в 70.1 балла, что практически идентично Claude 4 Sonnet (70.3) и заметно лучше, чем у o3 (61.2).
На бенчмарке для вызова функций Berkeley Function Calling Leaderboard v3 результат составил 77.8, снова опережая Claude 4 Sonnet с ее 75.2 баллами.
Но самый показательный результат был на BrowseComp, сложном тесте для веб-браузинга. В нем GLM-4.5 набрала 26.4, что выше, чем у Claude-4-Opus (18.8) и почти как у o4-mini-high (28.3).
Что касается классических задач на рассуждения, здесь модели показывают уверенные, хотя и не рекордные, результаты.
На MMLU Pro у GLM-4.5 84.6 балла, чуть меньше, чем у Claude 4 Opus (87.3) и Grok 4 (86.6).
В математическом тесте AIME24 модель набрала 91.0, ближайшие лидеры Qwen3 и Grok 4 - 94.1 и 94.3 соответственно.
На GPQA разрыв побольше: 79.1 у GLM-4.5 против 87.7 у Grok 4, а на сложном тесте по научной литературе HLE модель получила 14.4 балла, уступив Gemini 2.5 Pro (21.1) и Grok 4 (23.9).
В задачах, связанных с кодом, на тесте SWE-bench Verified модель набрала 64.2 балла, немного уступая Claude 4 Sonnet (70.4) и o3 (69.1), но опережая многие другие.
А вот в агентном кодинге, который оценивался людьми с помощью Claude Code, картина иная. В прямом сравнении GLM-4.5 выигрывает у Kimi K2 в 53.9% случаев и обходит Qwen3-Coder с винрейтом 80.8%.
Самый важный показатель - успешность вызова инструментов, где GLM-4.5 достигла 90.6%, опередив Claude-4-Sonnet (89.5%) и Kimi-K2 (86.2%).
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#GLM#MoE#ZAI