🌟X-Omni от Tencent: авторегрессионная text-to-image модель с RL.
X-Omni - методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень.
X-Omni построена на гибридной, но при этом унифицированной архитектуре. Схематично она выглядит так:
Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev.
🟡Уникальность метода - в смеси RL по GRPO и комплексной reward-системе.
Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR.
Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов.
Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста.
🟡И это дало свои плоды, особенно в отрисовке текста, где авторегрессионные модели исторически пасовали.
На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o.
В задачах общей генерации по тексту X-Omni также на высоте. На DPG-Bench модель достигла SOTA-результата 87.65, опередив GPT-4o (86.23) и Show-o2 (86.14). На GenEval результат составил 0.83, чуть-чуть не дотянув до модели Mogao (0.89).
Даже в задачах на понимание изображений X-Omni показывает себя достойно: на OCRBench ее результат (704) превосходит другие унифицированные модели, например Emu3 (687).
🟡Интересные подробности.
Во-первых, X-Omni не нуждается в CFG. В отличие от Emu3 или Janus-Pro, качество которых резко падает при отключении CFG, X-Omni работает стабильно.
Во-вторых, что, пожалуй, самое важное, RL превосходит даже SFT с последующим сэмплингом best-of-N.
Этот вывод идет вразрез с устоявшимся мнением в области языкового моделирования и доказывает, что для изображений холистическая оптимизация через RL дает существенный прирост качества.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#T2I#RL#XOmni#Tencent
Microsoft Advocates for Robust Global AI Governance
Microsoft's new publication, “Global Governance: Goals and Lessons for AI,” authored by Brad Smith and Natasha Crampton, explores AI governance by drawing parallels to civil aviation and nuclear power regulation.
The report outlines a multi-layered approach involving industry standards, domestic regulation, and international governance to manage AI's global risks and foster inclusive progress.
The publication highlights three key goals for international AI governance:
✅Mitigating Global Risks: International collaboration is crucial to address risks associated with AI that transcend national borders.
✅Ensuring Compatibility: Interoperable regulations across countries will be essential for fostering innovation and avoiding fragmented approaches.
✅Promoting Inclusive Growth: International governance should ensure that everyone benefits from the advancements in AI.
The publication emphasizes the necessity for robust global governance frameworks to responsibly harness AI’s potential. “Global Governance: Goals and Lessons for AI” is available in print and e-reader formats.
#AI#GlobalGovernance#Technology#Microsoft#AIGovernance
AI 智能体开源基金会成立:OpenAI、谷歌、亚马逊 AWS 等巨头加入,目标打破新时代垄断
为应对AI智能体发展可能出现的不兼容和封闭生态,Linux基金会启动“Agentic AI Foundation”(AAIF)。该组织旨在推动AI智能体相关开源项目的中立发展,初期获得Anthropic、Block和OpenAI的捐赠支持。Anthropic贡献了模型上下文协议MCP,Block贡献了Goose框架,OpenAI贡献了AGENTS.md。亚马逊AWS、彭博社、Cloudflare和谷歌等也已加入AAIF。AAIF通过“定向基金”模式筹集资金,技术路线图由技术指导委员会决定,以避免少数平台垄断AI智能体基础设施,确保不同系统间的协作。IT之家
🏷#Agentic#AI#Foundation#AI#智能体#开源
📢频道👥群组📝投稿
Navigating the EU AI Act: Defining 'Subliminal Techniques'
Hello, AI & Law followers! Academics from Imperial College London and Aarhus University weigh in on the draft EU AI Act, focusing on its approach to addressing concerns surrounding 'subliminal techniques' used by AI systems.
The Act aims to regulate these techniques but lacks a precise definition, raising questions about its effectiveness.
The scholars suggest a more comprehensive definition: “Subliminal techniques aim to influence a person’s behavior in ways that the person is likely to remain unaware of (1) the attempt to influence, (2) the methods used for influence, or (3) the effects of the influence on decision-making or the formation of values and beliefs.”
Why It Matters: A clear and inclusive definition of 'subliminal techniques' is crucial for effective AI regulation, ensuring that potentially harmful manipulation is appropriately addressed without hindering innovation.
#AI#EUAIAct#Regulation#SubliminalTechniques#AIethics#LegalTech
USA: Senate Bill Targets AI Deepfakes and Protects Content Creators
A new bipartisan bill, the Content Origin Protection and Integrity from Edited and Deepfaked Media (COPIED) Act, has been introduced in the Senate to establish federal transparency guidelines for AI-generated content, including deepfakes. This legislation mandates AI companies to embed origin data into generated content and prohibits the removal or tampering of this information, ensuring content creators can detect unauthorized use of their work.
The COPIED Act aims to provide robust legal protections for content creators such as journalists, artists, and musicians, allowing them to safeguard their intellectual property and dictate terms of use. By requiring AI providers to include provenance metadata, the bill ensures that rightsholders can trace and address unauthorized utilization of their content. Additionally, the Federal Trade Commission (FTC) and state attorney generals will enforce these regulations, with content owners retaining the right to sue for unauthorized use.
#AI#Deepfakes#COPIEDAct#Transparency#DigitalRights
🚀Прорыв от Google: активное обучение с экономией данных на 10 000× при дообучении LLM
Google разработала масштабируемый процесс *active learning*, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.
🟢 Как работает метод:
1. Стартовая модель (LLM-0) получает промпт и автоматически размечает огромный массив данных.
2. Кластеризация выявляет примеры, где модель путается (наиболее спорные и ценные для обучения).
3. Отбор данных: из этих кластеров выбирают информативные и разнообразные примеры.
4. Экспертная разметка — только для выбранных примеров.
5. Итерации: дообучение модели → новый отбор спорных примеров → разметка → снова обучение.
🟢Результаты:
- Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.
- Улучшение метрики *Cohen’s Kappa* на 55–65 %.
- В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.
🟢Что такое Cohen’s Kappa?
Это метрика, которая показывает, насколько два "судьи" (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.
- 0.0 — нет согласия (или хуже случайного)
- 0.41–0.60 — умеренное согласие
- 0.61–0.80 — значительное
- 0.81–1.00 — почти полное согласие
В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).
Чем лучше предыдущих методов:
- Точечная разметка: размечаются только самые информативные примеры.
- Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.
- Экономия ресурсов: меньше времени и затрат на разметку.
- Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).
🟢Вывод:
При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.
#GoogleResearch#ActiveLearning#AI#LLM#MachineLearning#DataEfficiency
🟠Почитать подробно
@ai_machinelearning_big_data
#GoogleResearch#ActiveLearning#AI#LLM#MachineLearning#DataEfficiency