Лет десять назад мне очень нравилось всё, что делает и пишет Тёма Лебедев. Я с удовольствием читал "Ководство" и "Бизнес-линч". Мне импонировали его подходы к дизайну и к организации работы своей студии. Ещё я считал его человеком очень прямолинейным, который называет вещи своими именами и не боится высказываться не по шаблону. Когда я первый раз зашёл на сайт Студии Лебедева, увидел там слоган "Долго. Дорого. Ох**нно.", подумал ещё: "Ого, чувак прямо на своём официальном бизнес-сайте пишет не приторным рекламным языком, а что-то такое дерзкое."
Потом на время перестал за ним следить, переключившись на другие источники. И вот в этих новых источниках в какой-то момент появился дискурс "Тёма Лебедев сошёл с ума и несёт какую-то ересь". Источники были в основном либерально-прозападные, я очень сильно им доверял и всецело без каких-либо сомнений принимал ту картину мира, которую они преподносят. Поэтому, не став вообще ничего смотреть и читать, что говорит Лебедев, я тоже совершенно чётко и однозначно принял для себя тезис "Лебедев сошёл с ума и несёт чушь". Если бы вы меня год назад спросили про Лебедева, я бы вам сказал: "Но ведь совершенно очевидно же, что Лебедев свихнулся и несёт херню". Это было частью объективной реальности вокруг меня, наряду с утверждениями "вода мокрая" и "солнце жёлтое".
Как это совмещалось с тем, что прежде мне нравилось то, что делает и говорит Тёма? Никак. Кац, которого я активно смотрел, даже в одном из своих видео подробно пытался ответить на вопрос "Почему в целом неглупый Лебедев несёт чушь и высказывает какие-то нелиберальные и незападные идеи?". И ответом Каца было что-то в духе: "Это необъяснимо, скорее всего он один раз пошутил и сказал что-то пророссийское, шутка затянулась, теперь уже продолжает так говорить, чтобы сохранить лицо". Так себе объяснение, но я и его принял.
За этот год на фоне известных событий мои взгляды претерпели много изменений. Я рефлексировал в себе этот вопрос, и когда-нибудь может напишу вам более подробно. Но Каца смотреть перестал почти сразу где-то в марте. Как минимум, либеральная идеология оказалась для меня несовместима с решением остаться в России, а я уезжать совсем не хочу.
Тогда я для интереса посмотрел несколько роликов Лебедева и с удивлением обнаружил, что, во-первых, я согласен с 90% того, что он говорит. Ну вот прям дословно по некоторым пунктам (типа взгляды на взаимоотношения Европы с мигрантами или взгляды на ЛГБТ). И вообще у него удивительно близкая к моей система ценностей и представление о том, как люди должны себя вести. Во-вторых, он всё так же выглядит для меня просто чуваком, который прямым текстом называет вещи своими именами и открыто высказывает своё мнение по тем или иным вопросам, независимо от того, попадает ли это мнение в какую-либо идеологию или нет. Ну то есть я лет пять на полном серьёзе считал чела городским юродивым и был абсолютно уверен, что он задвигает безумную хрень, а чел всё это время говорил нормальные и правильные вещи (с моей точки зрения). Вместо того, чтобы самому сходить посмотреть на канал Тёмы, я посмотрел реакцию Каца на канал Тёмы и удовлетворился этим.
Не будьте мной в этом вопросе. Независимо от вашей позиции на идеологическом компасе и от вашего отношения к упомянутым персонажам: формируйте своё мнение самостоятельно.
P.S. Политические споры под этой записью запрещены, сразу бан.
#life
Apple выпустила необычную ИИ-модель для разработчиков
Apple тихо выложила на Hugging Face новую модель DiffuCoder-7B-cpGRPO с интересной особенностью.
Вместо классической генерации кода слева направо, она может писать код в любом порядке и улучшать несколько блоков одновременно, что делает генерацию быстрее.
Модель основана на диффузионном подходе (как в Stable Diffusion для картинок) и построена поверх Qwen2.5-7B от Alibaba. Показала прирост 4.4% на популярных бенчмарках моделей для программирования.
Особенность: регулируя температуру, можно менять порядок генерации токенов - от строгого последовательного до гибкого хаотичного.
#Apple#Coding#Diffusion
------
@tsingular
🌟Minimax VTP: гибридный токенизатор для диффузии на стероидах.
В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное.
Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше.
MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP).
Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения.
Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса:
🟢Стандартный pixel reconstruction loss;
🟢Self-supervised learning (через Masked Image Modeling и дистилляцию, как в DINOv2);
🟢Image-text contrastive loss (как в CLIP).
Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна.
🟡Теоретические выкладки подтвердились на практике.
Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза.
🟡Но главное открытие - это то, что заработал закон масштабирования для Stage 1.
Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно.
🟡В открытом доступе опубликованы 3 чекпоинта VTP с различием по количеству параметров:
🟠VTP-Large - 0.7B;
🟠VTP-Base - 0.3B;
🟠VTP-Small - 0.2B.
📌Лицензирование: MIT License.
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Diffusion#Tokenizer#Minimax
⚡️Вышла Z-Image Base.
Tongyi выложила фундаментальную версию модели семейства Z-Image.
В отличие от ранее выпущенной Turbo, это полновесный трансформер, ориентированный на максимальное качество и управляемость генерации .
Z-Image отлично подходит для дообучения, тренировки LoRA и интеграции с ControlNet.
Модель поддерживает CFG и работу с негативными промптами, генерируя результат за 28–50 шагов.
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Демо HF
🟡Демо ModelScope
🟡Archive
🟡ComfyUI WorkFlow
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Diffusion#ZImage#Tongyi
🧠 Как «вклеить» объект в картинку так, чтобы он выглядел естественно?
Это одна из самых сложных задач в семантической генерации:
🔸 нужно сохранить структуру сцены
🔸 вставить объект по текстовому описанию
🔸 и найти уместное место, а не просто налепить поверх
Большинство моделей с этим не справляются — объект добавляется не к месту или портит фон.
Новый метод Add-it от NVIDIA решает эту задачу без обучения модели.
Он расширяет механизм внимания в диффузионных моделях, чтобы учитывать сразу три источника:
1. Оригинальное изображение
2. Текстовый промпт
3. Промежуточную сгенерированную картинку
📌 Такой подход позволяет:
– сохранить геометрию сцены
– встроить объект туда, где он действительно мог бы быть
– не терять мелкие детали и текстуры
📊 Результаты:
– Add-it без дообучения обходит supervised‑модели
– На новом бенчмарке Additing Affordance показывает SOTA результат по «естественности размещения»
– В слепых тестах люди выбирают его в 80% случаев
– Улучшает метрики качества генерации
🟠Github: https://github.com/NVlabs/addit
🟠Demo: https://huggingface.co/spaces/nvidia/addit
🟠Paper: https://arxiv.org/abs/2411.07232
🟠Project: https://research.nvidia.com/labs/par/addit/
@ai_machinelearning_big_data
#NVIDIA#Diffusion#Addit#StableDiffusion#AIgen#ControllableGeneration
#python#comfyui#diffusion#flux#genai#mlsys#quantization
Nunchaku is a fast and efficient engine that runs 4-bit neural networks using a special method called SVDQuant, which compresses models to use less memory and speed up processing by 2 to 5 times compared to older methods. It supports advanced AI models for tasks like high-quality text-to-image generation and image editing, working best on modern NVIDIA GPUs. You can easily install and use it with ComfyUI, and it has active community support on Slack, Discord, and WeChat. This means you can generate or edit images quickly with less computing power, saving time and resources. It also offers tutorials and example workflows to help you get started smoothly.
https://github.com/nunchaku-tech/ComfyUI-nunchaku
⚡️BERT is just a Single Text Diffusion Step
Любопытны пост, где автор объяснил на примере очень простую и очевидную, но мощную идею.
Он заметил, что то, что мы называем диффузией текста, на самом деле - это просто обобщённая версия классического обучения BERT.
Как работаетBERT?
В BERT модель берёт текст и маскирует часть слов, а потом учится угадывать, какие слова были скрыты.
В диффузии происходит почти то же самое, только шагов больше: на каждом шаге модель немного «портит» текст (добавляет шум), а затем восстанавливает его, всё меньше и меньше теряя смысл, пока не соберёт финальный чистый текст.
То есть BERT делает один шаг очистки - угадывает замаскированные слова.
А диффузионная модель делает много таких шагов подряд, постепенно превращая случайный набор токенов в осмысленный текст.
Барри дообучил RoBERTa, чтобы показать это на практике - и получил настоящий текстовый диффузионный генератор.
В примере:
- Используется RoBER (улучшенная версия модели BERT,) и датасет WikiText.
- На каждом шаге часть токенов заменяется на <MASK>,
модель восстанавливает их, потом снова маскирует — и так несколько раз.
- После нескольких итераций модель способна генерировать связный текст,
даже без автогенеративного декодера (как у GPT).
📈Результаты
- Модель генерирует осмысленный текст, хотя и не идеально связный.
- Качество улучшалось по мере добавления шагов диффузии.
- По времени генерации RoBERTa Diffusion была немного медленнее, чем GPT-2 (~13 сек против 9 сек), но архитектура осталась полностью encoder-only.
Автор упоминает, что позже наткнулся на работу DiffusionBERT, где идею реализовали глубже и подтвердили результатами.
Главная мысль:
BERT можно считать одноступенчатой версией текстовой диффузии.
Если добавить больше шагов, то vs получаем диффузионный генератор текста.
Если BERT - это один шаг диффузии, то будущее может принадлежать моделям, совмещающим "понимание" и "генерацию" текста в одном процессе.
https://nathan.rs/posts/roberta-diffusion/
@ai_machinelearning_big_data
#AI#Diffusion#RoBERTa#BERT#LanguageModel#MLM#Research
#python#audio_generation#diffusion#image_generation#inference#model_serving#multimodal#pytorch#transformer#video_generation
vLLM-Omni is a free, open-source tool that makes serving AI models for text, images, videos, and audio fast, easy, and cheap. It builds on vLLM for top speed using smart memory tricks, overlapping tasks, and flexible resource sharing across GPUs. You get 2x higher throughput, 35% less delay, and simple setup with Hugging Face models via OpenAI API—perfect for building quick multi-modal apps like chatbots or media generators without high costs.
https://github.com/vllm-project/vllm-omni
#python#deep_learning#diffusion#flax#flux#hacktoberfest#image_generation#image2image#image2video#jax#latent_diffusion_models#pytorch#score_based_generative_modeling#stable_diffusion#stable_diffusion_diffusers#text2image#text2video#video2video
The Hugging Face Diffusers library is a powerful and easy-to-use tool for generating images, audio, and 3D molecular structures using advanced diffusion models. It offers ready-to-use pretrained models and flexible components like pipelines, schedulers, and model building blocks, allowing you to quickly create or customize your own diffusion-based projects. Installation is simple via pip or conda, and you can generate high-quality outputs with just a few lines of code. This library benefits you by making cutting-edge AI generation accessible, customizable, and efficient, whether you want to run models or train your own[1][2][5].
https://github.com/huggingface/diffusers