TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #739 · 24.01

Есть такой крупный англоязычный видеоигровой форум ResetEra — около 10 миллионов ежемесячных посетителей. И на нём запретили любые упоминания и обсуждения игры Hogwarts Legacy — недавно вышедшего высокобюджетного проекта по вселенной Гарри Поттера. Хотя проект громкий, рекламируют его много, играть в него тоже будут наверняка очень многие, и на видеоигровом форуме это должно быть одно из топовых и самых интересных для аудитории обсуждений. А запретили потому что, как вы помните, пару лет назад Роулинг высказала в Твиттере фразу, которую посчитали оскорбительной некоторые трансгендеры. И понёсся каток кансел-культуры — стало модно и репутационно-правильно в западном обществе высказываться против Роулинг, а Роулинг, в свою очередь, систематически продолжала высказывать свою позицию открыто против транс-людей. Что характерно: молодые актёры из фильмов о Гарри Поттере, которые, по сути, с этих фильмов стартовали свою карьеру и вне этих фильмов особых заслуг не имеют, высказывались резко и однозначно в сторону канселинга. А вот актёры постарше вели себя более сдержано, хотя они как раз Роулинг обязаны куда меньшим. В общем, этим форумом рулят настолько отбитые леваки, что они под угрозой бана полностью запретили любые упоминания игры, потому что игра по вселенной Гарри Поттера, а его написала "трансфобка". А все посты, где пользователи попытаются обсудить это решение администрации, будут удаляться. Свобода слова! Я не собирался покупать Hogwarts Legacy, но вот сейчас даже задумался, а не поддержать ли этот проект чисто из принципа. #games Один из самых смешных мемов по теме, что я встретил:

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #bitdance

当前筛选 #bitdance清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9534 · 17.02.2026 г., 09:02

🌟BitDance: авторегрессионная генерация изображений с бинарными токенами. Генеративные модели делятся на 2 лагеря: диффузионные и авторегрессионные. Вторые концептуально ближе к LLM - генерируют изображение токен за токеном, как текст. Проблема в том, что это очень медленно, а качество проигрывает диффузии. BitDance - экспериментальная 14B AR-модель, которая пытается решить оба этих вопроса разом. Этим проектом группа китайских рисёчеров показала, что правильный бинарный токенизатор + diffusion head + параллельный патчинг закрывает большинство претензий. Они локализовали 3 проблемы дискретных AR-моделей и закрыли каждую отдельным решением. 🟡Плохая реконструкция токенизатора Вместо VQ-кодбука тут используется бинарный токенизатор на основе квантования с групповым разбиением каналов. Словарь вырастает до 2²⁵⁶ (для сравнения: у Cosmos - 65536), при этом модель держит PSNR 25.29 против 24.81 у непрерывного DC-AE, то есть бинарные токены реконструируют изображение лучше, чем VAE у SANA. 🟡Нестабильный сэмплинг А как вообще выбирать из словаря в 2²⁵⁶ вариантов? Обучить классификатор на все возможные токены тут не вариант: такой слой не поместится ни в какую память. В качестве решения - прикрутили diffusion head, которая моделирует биты на непрерывном гиперкубе. То есть, модель предсказывает структуру битов через velocity-matching, что и позволяет сэмплить из гигантского пространства состояний. 🟡Скорость AR генерирует по одному токену за шаг. BitDance за один шаг выдает сразу 64 токена (или 16), при этом модель понимает, как они связаны между собой внутри этого блока. Громко заявленный результат: 30x ускорение относительно next-token AR при сопоставимом качестве. об этом в конце 🟡Тесты На мелкой версии ImageNet BitDance-H достигает FID 1.24 (лучший результат среди AR-моделей, наравне с xAR-H). На DPG-Bench (text-to-image) полноценная BitDance набирает 88.28 - это выше FLUX.1-Dev, SD3, Janus-Pro, но уступает Seedream 3.0 и Qwen-Image. В релизе 2 версии 14B модели, с предикшеном на 16 и 64 токена и макс. разрешением 1Мpx. Остается вопрос: насколько бинарный токенизатор + diffusion head добавляет латентности на каждом шаге, даже если самих шагов стало меньше из-за патчинга. 30x по скорости - это сравнение не с диффузионными моделями, которые уже умеют генерировать за 4–8 шагов. 14B - это не про "взял и запустил". Есть конечно версии на ImageNet с разрешением 256х256 для воспроизведения эксперимента, но не за этим мы сюда пришли. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Arxiv 🟡Модель 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#AR#T2I#BitDance