TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #9534 · 17 февр.

🌟BitDance: авторегрессионная генерация изображений с бинарными токенами. Генеративные модели делятся на 2 лагеря: диффузионные и авторегрессионные. Вторые концептуально ближе к LLM - генерируют изображение токен за токеном, как текст. Проблема в том, что это очень медленно, а качество проигрывает диффузии. BitDance - экспериментальная 14B AR-модель, которая пытается решить оба этих вопроса разом. Этим проектом группа китайских рисёчеров показала, что правильный бинарный токенизатор + diffusion head + параллельный патчинг закрывает большинство претензий. Они локализовали 3 проблемы дискретных AR-моделей и закрыли каждую отдельным решением. 🟡Плохая реконструкция токенизатора Вместо VQ-кодбука тут используется бинарный токенизатор на основе квантования с групповым разбиением каналов. Словарь вырастает до 2²⁵⁶ (для сравнения: у Cosmos - 65536), при этом модель держит PSNR 25.29 против 24.81 у непрерывного DC-AE, то есть бинарные токены реконструируют изображение лучше, чем VAE у SANA. 🟡Нестабильный сэмплинг А как вообще выбирать из словаря в 2²⁵⁶ вариантов? Обучить классификатор на все возможные токены тут не вариант: такой слой не поместится ни в какую память. В качестве решения - прикрутили diffusion head, которая моделирует биты на непрерывном гиперкубе. То есть, модель предсказывает структуру битов через velocity-matching, что и позволяет сэмплить из гигантского пространства состояний. 🟡Скорость AR генерирует по одному токену за шаг. BitDance за один шаг выдает сразу 64 токена (или 16), при этом модель понимает, как они связаны между собой внутри этого блока. Громко заявленный результат: 30x ускорение относительно next-token AR при сопоставимом качестве. об этом в конце 🟡Тесты На мелкой версии ImageNet BitDance-H достигает FID 1.24 (лучший результат среди AR-моделей, наравне с xAR-H). На DPG-Bench (text-to-image) полноценная BitDance набирает 88.28 - это выше FLUX.1-Dev, SD3, Janus-Pro, но уступает Seedream 3.0 и Qwen-Image. В релизе 2 версии 14B модели, с предикшеном на 16 и 64 токена и макс. разрешением 1Мpx. Остается вопрос: насколько бинарный токенизатор + diffusion head добавляет латентности на каждом шаге, даже если самих шагов стало меньше из-за патчинга. 30x по скорости - это сравнение не с диффузионными моделями, которые уже умеют генерировать за 4–8 шагов. 14B - это не про "взял и запустил". Есть конечно версии на ImageNet с разрешением 256х256 для воспроизведения эксперимента, но не за этим мы сюда пришли. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Arxiv 🟡Модель 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#AR#T2I#BitDance

Результаты

Найдено 10 похожих постов

👓 Студент из Стэнфордского университета Брайан Чанг разработал ИИ-монокль RizzGPT для помощи в поддержании диалогов. Устройство прикрепляется к очкам и слушает разговоры пользователя. Когда собеседник задает какой-либо вопрос, система генерирует ответ и отображает его поверх линз. Для создания RizzGPT Чанг объединил алгоритм GPT-4, платформу распознавания речи Whisper и AR-устройство Monocle с открытым исходным кодом. 👀 Также студент разработал систему LifeOS, которую обучил на своих личных сообщениях, фотографиях друзей и других данных. Она умеет распознавать знакомых Чанга и добавлять «локальные» детали в диалогах с ними. #LLM#AR

Hashtags

🎎 Google оживила культовых японских персонажей в дополненной реальности Найти одного из 14 представителей поп-культуры, среди которых Pac-Man, Hello Kitty и Ультрамен, можно в приложении Google Search на Android и iOS. 📲 После ввода имени персонажа под основным результатом поиска появится опция «Посмотреть в пространстве», которая позволит перетащить 3D-модель в поле зрения камеры. #Google#AR

Hashtags

🌏 Google выпустила AR-игру Floom, с помощью которой можно открыть портал в другой конец планеты. Игра работает прямо в браузере смартфона. Чтобы ее запустить, пользователю нужно навести камеру телефона на землю и нажать на торнадо, которое откроет портал на другую сторону планеты. Затем это место можно открыть в приложении Google Планета Земля и осмотреться. 🕶 Floom работает на основе библиотеки WebXR, которая позволяет разработчикам создавать браузерные AR и VR приложения. Также игре необходимо дать разрешение на использование геолокации и инструмента дополненной реальности смартфона. На данный момент Floom работает только в Chrome на устройствах Android. #Google#AR

Hashtags

🍏AppleвыпуститAR-шлем во втором квартале 2022 года, утверждает аналитик. Прогноз основан на перспективах производителя линз для AR и VR гарнитур Genius Electronic Optical. В исследовательском отчете говорится, что тайваньская компания получит выгоду от ряда предстоящих продуктов Facebook, Sony и Apple. 😑 Также, согласно слухам, в 2022 году Apple представит шлем смешанной реальности. Таким образом, компания может работать одновременно над двумя гарнитурами. #Apple#AR

Hashtags

🗣Appleанонсировала обновление инструмента RealityKit для создания приложений с дополненной реальностью. С его помощью разработчики смогут генерировать трехмерные модели, используя фотографии с iPhone. Для этого им необходимо сделать серию снимков объекта со всех сторон, в том числе снизу, с помощью любой камеры. Затем, используя Object Capture API в macOS Monterey, требуется указать папку с исходными изображениями, выбрать уровень детализации и запустить процесс рендеринга. 💬 По словам представителей компании, готовые модели оптимизированы для платформы AR Quick Look, которая позволяет добавлять 3D-объекты в приложения или веб-сайты на iPhone и iPad. #Apple#AR

Hashtags

🍏 Генеральный директор Apple Тим Кук в интервью The New York Times намекнул на то, что думают в его компании о дополненной реальности. Он согласился с формулировкой журналиста, что технология «критически важна» для будущего Apple. Кук сказал, что видит ее огромный потенциал в сферах здравоохранения, образования, розничной торговли и развлечений. 🤖 Директор Apple также назвал автономность «базовой технологией» и сказал, что с роботами «можно многое сделать». Но он не сообщил, разрабатывает ли его компания что-либо связанное с этими технологиями. В течение многих лет ходят слухи, что Apple работает над AR-гарнитурой. Последние утечки предполагают, что устройство смешанной реальности может быть выпущено в следующем году. #Apple#AR

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #401 · 19.10.2023, 16:00

​​Polymathic - междисциплинарный ИИ Ох, какая классная межуниверситетская инициатива - Polymathic🔥. Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п. В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков. На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI. #AI#ML

Hashtags

by makstorch

@bymakstorch · Post #174 · 30.01.2023, 06:11

Вот она, полезная виртуальная реальность 🎞Video 1: Ребята из Shopify сделали действительно полезный пример работы с Quest Pro(очки Цукерберга Meta). Голограммы отображаются поверх реальных объектов вместе с 3D-инструкциями в виде направляющих, сборочных деталей, стыковочными местами и так далее. 🎞Video 2: Для всех кто занимается стройкой, пристегнитесь. Есть платформа BIM Holoview, на её базе есть две известных мне кампании: VisualLive и Trimble Mixed Reality. Благодаря AR, строители видят нужные слои строящегося объекта через экран айпэда или очки дополненной реальности. #AR#сервисы

by makstorch

@bymakstorch · Post #148 · 10.01.2023, 07:01

Mario Kart Live: Home circuit Этот пост — закладка или товар к скорой покупки для семей и геймеров. У Nintendo есть охуевшая игра выпрыгивающая из цифрового мира в реальный. Выглядит пиздато, реализовано достойно, стоит нормально. Как только мой сын чуть подрастет, будем играть (до 3х игроков). Набор с красным Марио стоит $99.99, а с зеленым Луиджи $97.89 🪨 🕹Официальный сайтец #wowdesign#AR