🚀 DroPE: как расширить контекст LLM, просто “выкинув” позиционные эмбеддинги (механизм, который говорит трансформеру в каком порядке идут токены.)
Sakana AI выпустили DroPE - метод, который позволяет увеличить контекст у уже предобученных LLM без привычных адских затрат на long-context fine-tuning.
Идея звучит как ересь, но результаты говорят об обратном .
💡 Главный инсайт :
Позиционные эмбеддинги (например RoPE) жизненно важны, чтобы модель нормально обучилась и сошлась.Но после обучения они же становятся главным ограничителем, из-за которого модель плохо переносит контекст длиннее, чем видела на трейне.
То есть:
- для обучения - нужны
- для генерализации на очень длинные последовательности - мешают
📌 Решение DroPE
Авторы предлагают относиться к позиционным эмбеддингам как к временным “строительным лесам”:
- в pretraining они дают стабильность
- после обучения их можно сбросить (drop)
- и получить zero-shot length extrapolation (модель начинает заметно лучше работать на длинах, которых не видела)
Большие контексты нужны пользователям :
- огромные code diff и монорепы
- юридические контракты на сотни страниц
- аналитика логов и документов без разбиения на чанки
Именно тут многие стандартные модели начинают “ломаться” просто потому что контекст слишком длинный.
Результаты:
DroPE проверили на разных open-source моделях:
- калибровка занимает <1% бюджета от исходного pretraining
- а качество на long-context задачах заметно лучше популярных подходов
- сильные результаты на LongBench и RULER
Позиционка нужна, чтобы обучить модель, но может быть лишней, чтобы мыслить длинно
Возможно RoPE - не “обязательная часть архитектуры”, а просто инструмент для стабильного обучения.
📄 Paper: arxiv.org/abs/2512.12167
🔧 Code: github.com/SakanaAI/DroPE
@ai_machinelearning_big_data
#sakana#ai#ml#opensource
🧵 Хочешь делать видео с нейросетями, но нет $300+ на пак нейронок в месяц?Есть рабочий лайфхак!
Veo2, FramePack, Runway — звучит круто, но что делать, если ты студент с дохлым ноутом и нулём на карте?
Я нашёл выход для тех, кто сейчас не может себе позволить платные нейросетки.
🎒 Мне всё чаще пишут:
— Где генеришь?
— Какой сервис юзать вместо Runway?
— Как попасть на Veo 2?
— Блин чёт дорого, а есть за бесплатно?
И вот что я говорю всем:
💸 Платные инструменты — лучше.
У них крутое качество, настройка, скорость.
Я сам за сервисы, если есть возможность.
Но если её нет...
🧬Тогда смотрим на Wan 2.1 Plus.
Это не замена платным нейросетям.
Это — вынужденный, но рабочий вариант.
Что умеет:
🦾 Бесконечные кредиты генераций
🦾 Хорошая физика объектов
🦾 Можно вставлять референсы
🦾 Дают временный доступ к редким фичам (смешивание кадров)
Минусы
🕐 Долгая генерация (больше 40 мин...)
#opensource | AcidCrunch
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML
Китайцы выпустили открытый аналог Google Genie 3
Всего через 2 дня после анонса Genie 3 появилась его open-source альтернатива от Китая.
Нейросеть LingBot-World умеет в реальном времени (16 кадров/с) создавать из картинки или текста небольшой игровой мир, где можно управлять персонажем: на видео слева внизу видны кнопки wasd и видео меняется от их нажатия...
В отличие от закрытой разработки Google, код этой модели полностью открыт и доступен всем. Это большой шаг для независимых разработчиков.
#ИИ#нейросети#игры#opensource
https://t.me/semasci
🔥 Black Forest Labs представили FLUX.1 Kontext!
🔹 Генерация и точечное редактирование по тексту + исходному изображению
🔹 Консистентные персонажи и элементы сквозь итерации
🔹 Локальная правка фрагментов без смены всей сцены
🔹 Стиль по референсу и интерактивная скорость
⚙️ Три версии: Pro, Max (API, $0.08/картинка в Comfy), Dev (open-beta)
🌐 Тестируйте в Playground BFL – 200 бесплатных кредитов (1 gen = 4 кр.)
#ainews#opensource | AcidCrunch
🚀Рано списывать французов со счетов!
Mistral AI и All Hands AI выкатили Devstral 24B — лучшую открытую LLM для кодинга.
▫️46.8% на SWE-Bench (на 6% выше других открытых аналогов),
▫️ Влезает в RTX 3090 или Mac с 32GB RAM,
▫️ Агентная архитектура для работы с кодбазами (скафолдинг вместо ризонинга?),
▫️Apache 2.0 — можно применять даже в пром средах, без опасения юридических исков.
Скоро обещают модели крупнее, но вряд ли такие же открытые.
🔥 Веса: Hugging Face
📝 Подробности: Блог Mistral
https://t.me/semasci
#кодинг#opensource#ии
Mistral 3: мультимодальный, открытый, но... уже догоняющий
Французская Mistral AI выпустила семейство моделей Mistral 3. Главное:
✅ Mistral Large 3 (41B) — мультимодальная (текст+изображение), открытая (Apache 2.0). Похожа архитектурно на DeepSeek V3.
✅Ministral (14B, 8B, 3B) — тоже мультимодальные, компактные.
Но грустная правда: это не прорыв. Модель на бенчах лишь сравнивается с DeepSeek-V3.1 и Kimi K2, которые уже стали стандартом. Пока европейцы готовили релиз, в Китае вышла уже следующая итерация.
Архитектурное «вдохновение» у китайских коллег и скромные результаты делают релиз скорее шагом в догоняющих. В опенсорс-гонке ИИ Китай пока уверенно рулит, задавая темп и планку.
Европейский ИИ стабилен: круассаны есть, прорывов нет.
#MistralAI#ИИ#Opensource#LLM
https://t.me/semasci
Дайджест по OpenSource ИИ новинкам этой недели, скажу так очень много бесплатного жира вышло, буду тестить.
⚙️EdgeTam
Сегментация и трекинг объектов в видео (до 16 FPS на смартфоне)
Кому полезно: AR/VR-девелоперам, мобильным видеоредакторам, стартапам в видеоанализе
🔗GitHub - ставим на комп
🖼ICEedit(⭐️Полезно)
Продвинутое редактирование изображений по тексту, обходит Gemini и GPT-4o (Интересно что по цензуре), так же доступно в ComfyUi.
Кому полезно: Дизайнерам, иллюстраторам, брендам и SMM-агентствам — быстрое создание вариаций изображений
🔗Инфо -изучаем
🔗Huggingface -тестим
🔗GitHub - ставим на комп
🎨Hydream E1(⭐️Полезно)
Стилизует, заменяет объекты и текст на изображениях, работает на базе Hydream (Лучший OpenSource генератор изображений на данный момент )
Кому полезно: Художникам, геймдеву, визуальным сторителлерам — создание стилизованных ассетов и артов
🔗GitHub - ставим на комп
🗣Fantasy Talking(⭐️Полезно)
Анимация лиц, тел и фонов по аудио — фотореалистичный deepfake из одного кадра. Очень годно! Считай бесплатный вариант недавно нашумевшего Omni Human
Кому полезно: Создателям персонажей, блогерам, разработчикам цифровых аватаров и игр
🔗GitHub - ставим на комп
🧠Qwen 3 - от 5B до 235B
Open-source LLM, сопоставимая (слегка мощнее) с GPT-o3 mini, имеет reasoning-режим
Кому полезно: Разработчикам ИИ, аналитикам, NLP-исследователям — автономная альтернатива GPT для локального и коммерческого использования
🔗Статья с ссылками
💡Microsoft Phi-4-reasoning
Компактная reasoning-модель (14B), близка к ведущим моделям при малых мощностях
Кому полезно: Учёным, медицинским работникам и т.д.
🔗Сайт - Изучаем
🔗 HuggingFace - Тестим (Только выбери модель из списка)
🌐Web Thinker(⭐️Полезно)
Автоматически ищет, анализирует и пишет отчёты по запросу — альтернатива DeepResearch
Кому полезно: Исследователям, студентам, журналистам, SEO-специалистам, очень хорош в научных исследованиях — глубокий ресёрч с фактчекингом
🔗Сайт - Изучаем
🔗Github - Ставим на комп
🎶Обновление Suno до v4.5
Генерация музыки с живым вокалом, динамикой и стилями, я не пользуюсь(предпочитаю udio), но очень хвалят
Кому полезно: Музыкантам, подкастерам, маркетологам — быстрое создание треков под стиль проекта
🔗Suno *v4.5 доступен в платной подписке
👇 Подпишись, сохрани и кидай друзьям
#opensource#digest | AcidCrunch
ClimateLearn - машинное обучение в предсказании климата и погоды
ClimateLearn - это библиотека в питоне для доступа к самым современным климатическим данным и моделям машинного обучения стандартизированным и простым способом. Эта библиотека предоставляет доступ к нескольким наборам данных, зоопарку базовых подходов, а также набору метрик и визуализаций для крупномасштабного сравнительного анализа методов статистического масштабирования и временного прогнозирования.
В этом ноутбуке можно поучиться как пользоваться.
#ML#AI#climate
Resemble AI — полностью опен-сорсный проект!
🔗Репозиторий
🔗Онлайн-демо
✨ Возможности
• Клонирование голоса по 5 секундам записи
• Точный контроль эмоций — от едва уловимых до драматических
• Синтез быстрее классического real-time инференса
• Встроенный водяной знак для защиты контента
🛠 Все под лицензией MIT: можно свободно использовать, модифицировать и встраивать в свои проекты.
#audiogen#opensource | AcidCrunch
🔥Minimax M1: Китайский ИИ, который учился за $534K — а делает как за $100M
Всего через полгода после триумфа DeepSeek R1 на сцену выходит Minimax M1 — новая open-source модель из Шанхая с контекстом 1 млн токенов и производительностью на уровне GPT-4o и Claude 3. Но главное — её обучение стоило всего $534 000 — в 200 раз дешевле, чем GPT-4o от OpenAI.
Почему это важно для нас?
1️⃣Бесплатно и открыто
M1 выложена в открытый доступ (Apache 2.0) — можно кастомизировать код, встраивать в свои продукты, учить на своих данных.
2️⃣Создаёт сложные проекты «в один клик»
Пишет чистый код, строит работающие сайты (например, виртуальный тур по Индии) с картами, API и логикой.
3️⃣Экономит ресурсы
Благодаря архитектуре Mixture-of-Experts и «молниеносному вниманию» (Lightning Attention) тратит на 75% меньше вычислений, чем аналоги.
4️⃣Уже работает
Доступна в двух версиях:
- M1-40K — для стандартных задач;
- M1-80K — для сложной аналитики и агентных сценариев.
👉Англоязычный разбор — в статье VentureBeat:
Minimax M1: Open-Source Model with 1M Token Context
💡Фишка поста: M1 не просто «ещё одна модель» — это доказательство, что дорогой ИИ — не значит лучший. Китайские стартапы бросают вызов гигантам вроде OpenAI, снижая порог входа в ИИ для всех.
#Minimax#ИИ#OpenSource#Китай#GPT
Пробуем здесь.
https://t.me/semasci