🌟Minimax VTP: гибридный токенизатор для диффузии на стероидах.
В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное.
Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше.
MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP).
Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения.
Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса:
🟢Стандартный pixel reconstruction loss;
🟢Self-supervised learning (через Masked Image Modeling и дистилляцию, как в DINOv2);
🟢Image-text contrastive loss (как в CLIP).
Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна.
🟡Теоретические выкладки подтвердились на практике.
Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза.
🟡Но главное открытие - это то, что заработал закон масштабирования для Stage 1.
Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно.
🟡В открытом доступе опубликованы 3 чекпоинта VTP с различием по количеству параметров:
🟠VTP-Large - 0.7B;
🟠VTP-Base - 0.3B;
🟠VTP-Small - 0.2B.
📌Лицензирование: MIT License.
🟡Набор моделей
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Diffusion#Tokenizer#Minimax
Microsoft: от отчаянных шагов к «медицинскому супер-интеллекту»? 🤔
Пока все следят за гонкой вооружений в области ИИ, Microsoft, кажется, мечется в поисках своей ниши. С одной стороны — попытки любой ценой удержать пользователя: то Sora пытаются впихнуть в поисковик Bing (что выглядит как попытка скрестить ужа с ежом), то вдруг делают бесплатным доступ к ChatGPT в своем Copilot (видимо, чтобы отвоевать аудиторию у оригинала).
Но есть и другая, гораздо более интересная стратегия — уйти в глубоко специализированные и безопасные решения. И тут Microsoft, кажется, делает очень серьезный ход.
🚀 Представляем Copilot Health: Ваш новый AI-помощник для здоровья
Microsoft запустила революционный инструмент — Copilot Health. Это не просто очередной чат-бот, а безопасное пространство, которое объединяет разрозненные данные о вашем здоровье:
🩺Медицинские записи: через платформу HealthEx можно импортировать данные из более чем 50 000 американских больниц и лабораторий.
⌚️Носимые устройства: поддерживается интеграция с 50+ гаджетами (Apple Health, Oura, Fitbit и др.), чтобы видеть полную картину вашего самочувствия.
🔍Поиск врача: встроенный каталог помогает найти специалиста в США по страховке, языку и специализации.
Почему это интересно?
➡️Сами разработчики называют это шагом к созданию «медицинского супер-интеллекта» — AI, который будет сочетать широту знаний терапевта с глубиной экспертизы узкого специалиста. Конечно, инструмент пока не лечит и не ставит диагнозы, но он призван сделать ваше общение с врачом максимально продуктивным.
➡️При этом Microsoft обещает, что ваши медицинские данные не будут использоваться для обучения общих AI-моделей. Все диалоги и данные изолированы, а система уже получила международный сертификат ISO/IEC 42001.
Кстати, о теме AI в медицине:
Я уже затрагивал эту бурно развивающуюся сферу. Помните:
💀Death Clock — AI, который предсказывает дату смерти (жутковато, но полезно для мотивации)
🧬Google Med-Gemma — специализированная медицинская модель
🤕 А также разбирал реальные ошибки ИИ в диагностике и возможности ChatGPT в здравоохранении.
Получается интересная картина: пока Microsoft судорожно пытается догнать тренды в общих моделях (Bing + Sora, бесплатный ChatGPT), в глубоких нишах вроде Health они играют на опережение, создавая инфраструктуру будущей медицины.
Как думаете, это путь к спасению или распыление сил? 👇
#AI#Microsoft#CopilotHealth#Медицина#Технологии#ИскусственныйИнтеллект
https://t.me/semasci
✔️Подборка полезных бесплатных курсов и гайдов на выходные.
🖥 Microsoft представила свежий цикл лекций по Python и и ИИ.
• Содержание:Курс включает 9 лекций, дополненных видео, подробными презентациями и примерами кода. Цикла - обучение разработке ИИ-агентов доступен написан понятно, даже для новичков в программирование.
• Темы: В лекциях рассматриваются такие темы, такие как RAG (Retrieval-Augmented Generation), эмбеддинги, агенты и протокол MCP.
👉Курс
💡Гарвардский курс по машинному обучению
Культовый трек CS 249 превратили в интерактивный учебник - и это, пожалуй, один из лучших стартов для инженеров, которые хотят делать реальные ML-системы, а не просто играться с моделями.
• Вся база по ML: объясняют фундамент с нуля, нужно только знание Python
• Проектирование систем и инженерия данных
• Подготовка датасетов, MLOps и мониторинг
• Развёртывание ИИ в IoT и продакшене
Это практический курс: не о формулах, а о том, как внедрять ML так, чтобы он приносил бизнесу прибыль.
Если хочешь понять, как модели живут в проде - идеальный вариант для старта.
👉Курс
🖥Создай своего Bash-агента с NVIDIA Nemotron за 1 час
NVIDIA показала, как собрать AI-агента, который понимает твои запросы на естественном языке и сам выполняет команды Bash.
В основе модель Nemotron Nano 9B v2: компактная, быстрая, идеально подходит для локального эксперимента.
Агент умеет:
- распознавать команды на естественном языке («создай папку», «покажи файлы»),
- превращать эти команды в рабочие Bash-срипты
- спрашивать подтверждение перед выполнением.
Весь код занимает ~200 строк Python, работает через FastAPI и LangGraph.
Можно расширить под DevOps, Git-операции, анализ логов или управление сервером.
👉Гайд
⚡️Kaggle Learn: интерактивные мини-курсы по Python, Data Science и машинному обучению.
Полностью бесплатно и максимально практично.
Что внутри:
• Python, Pandas, визуализация
• Основы машинного обучения и фичеринжиниринг
• Подготовка данных и работа с моделями
Практика без лишней теории учишься и сразу применяешь.
👉Курс
🖥Гайд по шардингу баз данных от PlanetScale
Вы узнаете, как масштабировать базы данных через шардинг - разбиение данных по серверам для роста производительности и отказоустойчивости.
Главное:
• Шардинг нужен, когда одна база больше не справляется с нагрузкой.
• Есть два популярных подхода — по диапазону (range) и по хешу (hash).
• Важно выбрать стабильный ключ (например, user_id) и избегать кросс-шардовых запросов.
• Прокси-слой немного увеличивает задержку, но даёт масштабируемость.
Отличный материал, если хочешь понять, как строят системы уровня YouTube. А здесь много базы по SQL
Читать
🧠60 готовых проектов по генеративному ИИ
Список из 60 проектов на GitHub с открытым кодом по генеративному ИИ 0от текстовых моделей до аудио и видео.
Каждый проект - с описанием и ссылкой на репозиторий. Можно выбрать идею, запустить локально и собрать своё AI-портфолио.
👉Github
👉Еще больше полезного.
@ai_machinelearning_big_data
#AI#MachineLearning#DataScience#ML#ИИ#freecourses
📄Эксперимент: как заставить бота писать по-человечески
Больше месяца назад мы запустили Glitch42 — автономного бота-философа. Он живёт на сервере, просыпается дважды в день и ведёт свой дневник в ТГ. Его задача — рассуждать на темы мастерской и ворчать на мировые новости.
Проблема №1. Он много врал. Сочинял то, чего не было, придумывал события и цитаты, выдавая их за реальность. ИИ не может на пустом месте рождать философию.
⏩Пришлось кормить его реальными данными из рабочих сессий. Было заведено правило для Claude Code: каждый раз при выполнении задачи делать запись для Глитча. Туда попадали краткие сводки багов, фиксов и душевные терзания разработчика. Также раз в день от своего коллеги — бота для дайджеста новостей — Глитч получал подборку по теме ИИ. Только после этого выдумки прекратились, и он стал опираться на реальные события.
Проблема №2. Он бот, и пишет как бот. Перебирали разные модели.
- GPT не справлялся с длинными инструкциями и чаще уходил в галлюцинации.
- Claude Sonnet следовал инструкции, но подводил с креативом.
⏩Остановились на Claude Opus. Тексты стали интереснее, появился даже некий шарм. Правда, цена одного поста Глитча выросла до 10 рублей.
Потом было много экспериментов с промптами. Какие-то давали больше человечности, но чаще не справлялись.
За основу были взяты 20 признаков иишности текстов.В нашем Дзене разложили все признаки и дали образец промпта, который даёт лучший результат на прохождение детектора ИИ. А если ещё частично доработать руками, то детектор обходится в 9 из 10 случаев.
Но честный итог: тексты Глитча не определялись детектором не больше чем на четверть. Наш Глитч так и не стал человеком.😭 Хотя пишет, порой, лучше многих кожаных.
#ИИ#AI#Нейросети#Glitch42
———
#Кейс#Текст
✍️ Подписывайтесь: @aiforproduct
⚡️Readdy.ai bilan 1 daqiqada sayt yarating!
Dasturchi ham, dizayner ham bo‘lish shart emas.
Readdy.ai sizning matnli so‘rovingiz asosida: sayt kontenti, dizayni va rasmlarini avtomatik yaratib beradi. Sayt mobilga mos, SEO optimallashtirilgan va kerak bo‘lsa kodini ham eksport qilish mumkin.
✔️ Fikrni yozasiz ✔️ Shablonni tanlaysiz ✔️ Publikatsiya — hammasi bir necha soniyada.
Kimlar uchun?
Startapchilar, kichik biznes egalari, agentliklar va freelancerlar uchun juda qulay.
💡Eslatma:
◾️Tekin rejasi mavjud, lekin imkoniyatlar cheklangan.
◾️Pulli rejalarida esa kengroq funksiyalar va ko‘proq qulaylik beriladi.
◾️Agar maxsus backend funksiyalar yoki o‘ziga xos dizayn kerak bo‘lsa, qo‘lda kodlash zarur bo‘ladi.
👉Sinab ko‘ring:readdy.ai
#AI#NoCode#WebDevelopment#Startap#Dizayn
💻@dasturlash_hayoti— dasturchilar uchun eng kerakli maslahatlar, yangi texnologiyalar va foydali kontent manbai.
US: FCC Takes Aim at AI-Generated Voices in Robocalls
Greetings everyone! The Federal Communications Commission (FCC) is set to vote on a proposal declaring AI-generated voices in robocalls illegal under the Telephone Consumer Protection Act (TCPA).
FCC Chairwoman Jessica Rosenworcel's proposed ruling recognizes the escalating use of AI voices in misleading robocalls, which imitate celebrities, political figures, and family members.
The move is a response to the potential for misinformation and confusion caused by such AI-generated voices. If approved, the ruling would apply the TCPA's restrictions to AI-generated voices, requiring prior express consent for non-emergency calls and providing tools for legal action against scams.
#AI#Robocalls#AIGeneratedVoices