🌟Self-Flow: обучение диффузионных моделей без внешних энкодеров от Black Forest Labs.
Black Forest Labs и MIT решили проблему, с которой сталкиваются диффузионные и flow-модели: чтобы генерировать качественные картинки, им нужны сильные семантические представления. Обычно их берут снаружи - выравнивают внутренние признаки модели с признаками энкодера вроде DINOv2. Метод работает, но есть нюанс.
Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching.
🟡Self-Flow предлагает механизм Dual-Timestep Scheduling
В стандартном flow matching все токены нойзятся одинаково, поэтому модель решает задачу локально и не учится строить глобальные связи. Self-Flow сэмплирует 2 разных уровня шума и случайно назначает их разным токенам (часть входа зашумлена сильнее, часть чище). Это создает асимметрию: чтобы восстановить сильно зашумленные токены, модель вынуждена опираться на чистые и строить глобальный контекст.
Поверх этого работает самообучение по принципу дистилляции. Обучаются одновременно 2 копии модели: модель-ученик видит смешанный зашумленный вход, модель-учитель - более чистую версию (EMA-копия с экспоненциальным скользящим средним).
Ученик учится предсказывать признаки учителя из зашумленного входа, и это вынуждает его развивать сильные семантические представления без какого-либо внешнего энкодера.
🟡Результаты тестов
🟢На ImageNet 256×256 Self-Flow показал FID 5.70 против 5.89 у REPA;
Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче
🟢На text-to-image: FID 3.61 против 3.92 у REPA;
🟢По видео: FVD 47.81 против 49.75 у REPA;
🟢По аудио: лучшие FAD-оценки среди всех вариантов.
При этом на масштабировании (с 290M до 1B) разрыв с REPA увеличивается: модель Self-Flow на 625M параметров обходит REPA на 1B.
Метод универсален для модальностей - он работает одинаково на картинках, видео и аудио, что намекает на применение для мультимодального обучения.
В репозитории проекта есть код инференса на основе SiT-XL/2 с per-token timestep conditioning, чекпоинт на основе ImageNet 256×256 и скрипты для генерации сэмплов под FID-оценку через ADM evaluation suite. Поддерживаются режимы SDE и ODE, мульти-GPU через torchrun.
🟡Статья
🟡Техотчет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Multimodal#Framework#BFL
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML
#AI
Немного ИИ-теории
❗️В недавнем иске против компании OpenAI Илон Маск утверждал, что GPT-4 является ранним AGI, по сути равным человеческому интеллекту.
Что же такое AGI и когда он появится?
👤Сэм Альтман, CEO Open AI определяет AGI (artificial general intelligence) как интеллект, равный уровню обычного человека, который можно было бы принять в команду как сотрудника. Также популярно определение AGI как «системы, способной выполнить любую когнитивную задачу, доступную человеку».
📎Для справки: существует несколько видов (уровней развития) ИИ, а именно узкий ИИ (narrow, ANI), общий ИИ (genreal, AGI) и супер ИИ (super AI, ASI).
⏲Исследователи никак не могут прийти к консенсусу относительно даты появления AGI. По результатам Expert Survey on Progress in AI, существует 50% шанс того, что AGI появится до 2059 года. Тем не менее, поле ИИ изменяется постоянно и становится сложным оставаться в курсе событий.
⭐️Для этого мы нашли крупнейшее русскоязычное AGI-сообщество agirussia.org — у них есть канал и группа в Telegram.
🌐еще проходят еженедельные онлайн-семинары по тематике AGI на русском языке, записи семинаров за последние несколько лет доступны на YouTube и их сообществе в ВК.
Держим руку на пульсе ИИ⭐
⭐️Автор, Анна, @qcuqueen
Хакатончик от Xeek
Two Birds, One Neural Network - так называется новый хакатон от Xeek в области Generative AI. Звучит как-будто нужно сделать свой Dalle-E2, но на самом деле, задача выглядит немного иначе. По условиям хакатона, участникам нужно сделать нейронную сеть, которая максимизирует разнообразие генерируемых результатов, отвечающих двум условиям. Авторы хакатона проводят параллели с добавлением двух геофизических измерений для ограничения сценариев геологических моделей. Буквально, нужно построить нейронную сеть, которая генерирует разнообразные значения x0, x1, сохраняя при этом их природу в виде нисходящих или восходящих прямых линий, удовлетворяющих заданным функциям y1, y2, как показано на картинке.
Более подробное описание - тут. Призовой фонд $40К (первое место $19.5K).
#hackathon#AI#ML
❤️Интервью Павла Дурова на русском в 4k@durov
🎞 Ссылка на Youtube
Решил поиграться с нашим #AI и перевести видео с липсинком полностью через бот @plasma_gpt_ai_bot На русский в разы сложнее переводить, чем на английский.
Смотрите, что получилось)
👌 Новый #AI технологии на страже HR/HH. Если вы руководите компанией, то внедрение таких ботов в ваши бизнес процессы управления кадрами сильно сэкономит бюджет и повысит x10 качество кандидатов! Можно собрать сегодня даже no-code / no-budget решение самому!
Eсли вам все уже нужен быстрый и качественный подбор сложных IT кадров, или вы сами ищите работу, то рекомендую моего топового рекрутера @mikevolkov
Также я постоянно расширяю наш штат senior solidity / react / python разработчиков. Так что шлите мне @ilia_0x ваше резюме если готовы работать на интересных проектах в международных стартапах!)
#AI моделька, которая оживляет фотографии и эмитирует мимику лица и движение головы в зависимости от контекста речи. Выглядит достаточно правдоподобно.
🤩