TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #676 · 2.12

Не выдержал и заказал один DJI O3 Air Unit, посмотрим :) FPV-квадрокоптер это летающая платформа с камерой. И эти контуры более менее друг от друга изолированы: можно снять всё, что касается видео, и по-прежнему будет летать и нормально управляться, правда, пилот не сможет ничего видеть. То есть там полётный контроллер со своим радиоприёмником, отдельно радиопередатчик и камера для видео, и ещё почти всегда ставили отдельно камеру для съёмок — просто прикручивали сверху GoPro. С полётным контроллером и его радиомодулём всё хорошо — научились делать очень круто, работает чётко, опенсорсная прошивка, отличная дальность. А вот у видео были проблемы. Долгое время оно было вообще аналоговое, но пришла компания DJI и кроме собственных отдельных дронов стала выпускать Air Unit — модульную камеру с передатчиком, которую можно поставить на фактически любой дрон. При этом видео цифровое и передаётся только в очки от DJI. Это был отличный ход: качество у такого видео лучше, чем у аналогового, поэтому FPV-шники стали массово скупать очки от DJI, китайские компании массово приобрели у DJI лицензию на выпуск своих модулей с их чипами (Caddx, например, она у меня на одном из дронов стоит), на аналоге остались разве что дроно-гонщики, там слишком важна задержка между картинкой и реальным временем. Но потихоньку стали появляться решения от других производителей: например Walksnail Avatar — тут тебе и очки сразу и видеомодуль. Сами DJI выпустила новые очки, оказавшиеся несовместимыми с Air Unit. А ещё они же релизнули FPV-дрон Avata, который хоть и хороший, но не даёт той гибкости, которая нужна крутым (и не таким богатым :)) ребятам. Казалось бы — ну всё, лидерство DJI в области видеопередачи для FPV-дронов постепенно заканчивается. А, ну и параллельно с этим всегда была проблема "на что снимать?". GoPro очень тяжёлая. А всё, что лёгкое — не слишком качественное. Сами GoPro выпустили версию Bones со снятым всем подряд, кроме самого необходимого. Ещё активно делали (причём, как люди сами, так и фирмы) так называемые GoPro Naked — разбирали камеру, выкидывали аккумулятор и экран, печатали новый корпус полегче. И тут бац тебе: O3 Air Unit. Это камера от DJI Avata с видеопередатчиком, которую можно установить на любой дрон. Качество на голову выше, чем у всего, что есть на рынке. Достаточное, чтобы на эту камеру даже можно было снимать, а не только смотреть, куда летишь. Совместимая со всеми версиями очков. Решает сразу очень много проблем. FPV-шники теперь ещё больше будут покупать дорогущие очки от DJI обеих версий. Вишенкой на торте ещё и идёт тот факт, что камера впаивается, то есть ты её так просто с одного дрона на другой не поставишь. А у летающих ребят обычно по 2-3-5-10 дронов. Ну, экономику считайте сами. Гениальный ход, как по мне :) И очередной Game Changer. #drone

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #bfl

当前筛选 #bfl清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9625 · 05.03.2026 г., 13:26

🌟Self-Flow: обучение диффузионных моделей без внешних энкодеров от Black Forest Labs. Black Forest Labs и MIT решили проблему, с которой сталкиваются диффузионные и flow-модели: чтобы генерировать качественные картинки, им нужны сильные семантические представления. Обычно их берут снаружи - выравнивают внутренние признаки модели с признаками энкодера вроде DINOv2. Метод работает, но есть нюанс. Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching. 🟡Self-Flow предлагает механизм Dual-Timestep Scheduling В стандартном flow matching все токены нойзятся одинаково, поэтому модель решает задачу локально и не учится строить глобальные связи. Self-Flow сэмплирует 2 разных уровня шума и случайно назначает их разным токенам (часть входа зашумлена сильнее, часть чище). Это создает асимметрию: чтобы восстановить сильно зашумленные токены, модель вынуждена опираться на чистые и строить глобальный контекст. Поверх этого работает самообучение по принципу дистилляции. Обучаются одновременно 2 копии модели: модель-ученик видит смешанный зашумленный вход, модель-учитель - более чистую версию (EMA-копия с экспоненциальным скользящим средним). Ученик учится предсказывать признаки учителя из зашумленного входа, и это вынуждает его развивать сильные семантические представления без какого-либо внешнего энкодера. 🟡Результаты тестов 🟢На ImageNet 256×256 Self-Flow показал FID 5.70 против 5.89 у REPA; Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче 🟢На text-to-image: FID 3.61 против 3.92 у REPA; 🟢По видео: FVD 47.81 против 49.75 у REPA; 🟢По аудио: лучшие FAD-оценки среди всех вариантов. При этом на масштабировании (с 290M до 1B) разрыв с REPA увеличивается: модель Self-Flow на 625M параметров обходит REPA на 1B. Метод универсален для модальностей - он работает одинаково на картинках, видео и аудио, что намекает на применение для мультимодального обучения. В репозитории проекта есть код инференса на основе SiT-XL/2 с per-token timestep conditioning, чекпоинт на основе ImageNet 256×256 и скрипты для генерации сэмплов под FID-оценку через ADM evaluation suite. Поддерживаются режимы SDE и ODE, мульти-GPU через torchrun. 🟡Статья 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI#ML#Multimodal#Framework#BFL