TGTGInsighttelegram intelligenceLIVE / telegram public index
← () => "翠楼屋"

TGINSIGHT SIMILAR POSTS

查找相似内容

Source channel @lambdaexpression · Post #206 · 4月20日

前段时间一直被MajdataPlay的外键输入问题困扰:有玩家反映majplay会无征兆地出现拖判和吃音,但是内屏一切正常 因为我是第一次接触游戏开发,IO这方面也完全没经验 一开始我和bb本怀疑是线程调度的问题,即:IO线程时间片被其他线程挤占了,导致IO线程无法及时处理HID设备回报。为了验证这个猜想,我们尝试提高了IO线程的优先级,照旧 接下来我怀疑是我那套框架有问题:majplay是根据上一帧与这一帧的按键状态判断按键是不是"click"。为此我重写了这部分的实现,改进了IO线程与主线程之间的交互,问题照旧....... 到这里我已经怀疑这不是majplay的锅:IO线程没有任何异常,IO线程与主线程的交互没有问题,Note判定逻辑也没有问题,那就是设备确实没有回报给majplay或者设备发过来的回报中按键确实没有按下,但是大佬说hdd没有这种问题.....(人已经快崩溃了,这完全看不透也摸不着,因为我用单片机模拟玩家打高速纵连是完全没有问题的,我在家里用手台测试也没有问题) 到最后,bb本灵光一闪,说有没有可能是led刷新率过高,把按键控制板干爆炸了?我们让大佬把led刷新间隔从16ms改成100ms,吃音问题瞬间没有了,无语了 。。。。。。。。。。。。。。。。。。。。 adx是一个控制板同时管理按键和led,为什么我没有遇到吃音问题呢,因为我的手台不是adx的... #dev

Hashtags

Results

找到 1 条相似帖子

搜索 #bitdance

当前筛选 #bitdance清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9534 · 2026/02/17 09:02

🌟BitDance: авторегрессионная генерация изображений с бинарными токенами. Генеративные модели делятся на 2 лагеря: диффузионные и авторегрессионные. Вторые концептуально ближе к LLM - генерируют изображение токен за токеном, как текст. Проблема в том, что это очень медленно, а качество проигрывает диффузии. BitDance - экспериментальная 14B AR-модель, которая пытается решить оба этих вопроса разом. Этим проектом группа китайских рисёчеров показала, что правильный бинарный токенизатор + diffusion head + параллельный патчинг закрывает большинство претензий. Они локализовали 3 проблемы дискретных AR-моделей и закрыли каждую отдельным решением. 🟡Плохая реконструкция токенизатора Вместо VQ-кодбука тут используется бинарный токенизатор на основе квантования с групповым разбиением каналов. Словарь вырастает до 2²⁵⁶ (для сравнения: у Cosmos - 65536), при этом модель держит PSNR 25.29 против 24.81 у непрерывного DC-AE, то есть бинарные токены реконструируют изображение лучше, чем VAE у SANA. 🟡Нестабильный сэмплинг А как вообще выбирать из словаря в 2²⁵⁶ вариантов? Обучить классификатор на все возможные токены тут не вариант: такой слой не поместится ни в какую память. В качестве решения - прикрутили diffusion head, которая моделирует биты на непрерывном гиперкубе. То есть, модель предсказывает структуру битов через velocity-matching, что и позволяет сэмплить из гигантского пространства состояний. 🟡Скорость AR генерирует по одному токену за шаг. BitDance за один шаг выдает сразу 64 токена (или 16), при этом модель понимает, как они связаны между собой внутри этого блока. Громко заявленный результат: 30x ускорение относительно next-token AR при сопоставимом качестве. об этом в конце 🟡Тесты На мелкой версии ImageNet BitDance-H достигает FID 1.24 (лучший результат среди AR-моделей, наравне с xAR-H). На DPG-Bench (text-to-image) полноценная BitDance набирает 88.28 - это выше FLUX.1-Dev, SD3, Janus-Pro, но уступает Seedream 3.0 и Qwen-Image. В релизе 2 версии 14B модели, с предикшеном на 16 и 64 токена и макс. разрешением 1Мpx. Остается вопрос: насколько бинарный токенизатор + diffusion head добавляет латентности на каждом шаге, даже если самих шагов стало меньше из-за патчинга. 30x по скорости - это сравнение не с диффузионными моделями, которые уже умеют генерировать за 4–8 шагов. 14B - это не про "взял и запустил". Есть конечно версии на ImageNet с разрешением 256х256 для воспроизведения эксперимента, но не за этим мы сюда пришли. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Arxiv 🟡Модель 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#AR#T2I#BitDance