TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #9376 · 12 янв.

🚀 DroPE: как расширить контекст LLM, просто “выкинув” позиционные эмбеддинги (механизм, который говорит трансформеру в каком порядке идут токены.) Sakana AI выпустили DroPE - метод, который позволяет увеличить контекст у уже предобученных LLM без привычных адских затрат на long-context fine-tuning. Идея звучит как ересь, но результаты говорят об обратном . 💡 Главный инсайт : Позиционные эмбеддинги (например RoPE) жизненно важны, чтобы модель нормально обучилась и сошлась.Но после обучения они же становятся главным ограничителем, из-за которого модель плохо переносит контекст длиннее, чем видела на трейне. То есть: - для обучения - нужны - для генерализации на очень длинные последовательности - мешают 📌 Решение DroPE Авторы предлагают относиться к позиционным эмбеддингам как к временным “строительным лесам”: - в pretraining они дают стабильность - после обучения их можно сбросить (drop) - и получить zero-shot length extrapolation (модель начинает заметно лучше работать на длинах, которых не видела) Большие контексты нужны пользователям : - огромные code diff и монорепы - юридические контракты на сотни страниц - аналитика логов и документов без разбиения на чанки Именно тут многие стандартные модели начинают “ломаться” просто потому что контекст слишком длинный. Результаты: DroPE проверили на разных open-source моделях: - калибровка занимает <1% бюджета от исходного pretraining - а качество на long-context задачах заметно лучше популярных подходов - сильные результаты на LongBench и RULER Позиционка нужна, чтобы обучить модель, но может быть лишней, чтобы мыслить длинно Возможно RoPE - не “обязательная часть архитектуры”, а просто инструмент для стабильного обучения. 📄 Paper: arxiv.org/abs/2512.12167 🔧 Code: github.com/SakanaAI/DroPE @ai_machinelearning_big_data #sakana#ai#ml#opensource

Результаты

Найдено 10 похожих постов

🧵 Хочешь делать видео с нейросетями, но нет $300+ на пак нейронок в месяц?Есть рабочий лайфхак! Veo2, FramePack, Runway — звучит круто, но что делать, если ты студент с дохлым ноутом и нулём на карте? Я нашёл выход для тех, кто сейчас не может себе позволить платные нейросетки. 🎒 Мне всё чаще пишут: — Где генеришь? — Какой сервис юзать вместо Runway? — Как попасть на Veo 2? — Блин чёт дорого, а есть за бесплатно? И вот что я говорю всем: 💸 Платные инструменты — лучше. У них крутое качество, настройка, скорость. Я сам за сервисы, если есть возможность. Но если её нет... 🧬Тогда смотрим на Wan 2.1 Plus. Это не замена платным нейросетям. Это — вынужденный, но рабочий вариант. Что умеет: 🦾 Бесконечные кредиты генераций 🦾 Хорошая физика объектов 🦾 Можно вставлять референсы 🦾 Дают временный доступ к редким фичам (смешивание кадров) Минусы 🕐 Долгая генерация (больше 40 мин...) #opensource | AcidCrunch

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #401 · 19.10.2023, 16:00

​​Polymathic - междисциплинарный ИИ Ох, какая классная межуниверситетская инициатива - Polymathic🔥. Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п. В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков. На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI. #AI#ML

Hashtags

Китайцы выпустили открытый аналог Google Genie 3 Всего через 2 дня после анонса Genie 3 появилась его open-source альтернатива от Китая. Нейросеть LingBot-World умеет в реальном времени (16 кадров/с) создавать из картинки или текста небольшой игровой мир, где можно управлять персонажем: на видео слева внизу видны кнопки wasd и видео меняется от их нажатия... В отличие от закрытой разработки Google, код этой модели полностью открыт и доступен всем. Это большой шаг для независимых разработчиков. #ИИ#нейросети#игры#opensource https://t.me/semasci

🔥 Black Forest Labs представили FLUX.1 Kontext! 🔹 Генерация и точечное редактирование по тексту + исходному изображению 🔹 Консистентные персонажи и элементы сквозь итерации 🔹 Локальная правка фрагментов без смены всей сцены 🔹 Стиль по референсу и интерактивная скорость ⚙️ Три версии: Pro, Max (API, $0.08/картинка в Comfy), Dev (open-beta) 🌐 Тестируйте в Playground BFL – 200 бесплатных кредитов (1 gen = 4 кр.) #ainews#opensource | AcidCrunch

🚀Рано списывать французов со счетов! Mistral AI и All Hands AI выкатили Devstral 24B — лучшую открытую LLM для кодинга. ▫️46.8% на SWE-Bench (на 6% выше других открытых аналогов), ▫️ Влезает в RTX 3090 или Mac с 32GB RAM, ▫️ Агентная архитектура для работы с кодбазами (скафолдинг вместо ризонинга?), ▫️Apache 2.0 — можно применять даже в пром средах, без опасения юридических исков. Скоро обещают модели крупнее, но вряд ли такие же открытые. 🔥 Веса: Hugging Face 📝 Подробности: Блог Mistral https://t.me/semasci #кодинг#opensource#ии

Mistral 3: мультимодальный, открытый, но... уже догоняющий Французская Mistral AI выпустила семейство моделей Mistral 3. Главное: ✅ Mistral Large 3 (41B) — мультимодальная (текст+изображение), открытая (Apache 2.0). Похожа архитектурно на DeepSeek V3. ✅Ministral (14B, 8B, 3B) — тоже мультимодальные, компактные. Но грустная правда: это не прорыв. Модель на бенчах лишь сравнивается с DeepSeek-V3.1 и Kimi K2, которые уже стали стандартом. Пока европейцы готовили релиз, в Китае вышла уже следующая итерация. Архитектурное «вдохновение» у китайских коллег и скромные результаты делают релиз скорее шагом в догоняющих. В опенсорс-гонке ИИ Китай пока уверенно рулит, задавая темп и планку. Европейский ИИ стабилен: круассаны есть, прорывов нет. #MistralAI#ИИ#Opensource#LLM https://t.me/semasci

Дайджест по OpenSource ИИ новинкам этой недели, скажу так очень много бесплатного жира вышло, буду тестить. ⚙️EdgeTam Сегментация и трекинг объектов в видео (до 16 FPS на смартфоне) Кому полезно: AR/VR-девелоперам, мобильным видеоредакторам, стартапам в видеоанализе 🔗GitHub - ставим на комп 🖼ICEedit(⭐️Полезно) Продвинутое редактирование изображений по тексту, обходит Gemini и GPT-4o (Интересно что по цензуре), так же доступно в ComfyUi. Кому полезно: Дизайнерам, иллюстраторам, брендам и SMM-агентствам — быстрое создание вариаций изображений 🔗Инфо -изучаем 🔗Huggingface -тестим 🔗GitHub - ставим на комп 🎨Hydream E1(⭐️Полезно) Стилизует, заменяет объекты и текст на изображениях, работает на базе Hydream (Лучший OpenSource генератор изображений на данный момент ) Кому полезно: Художникам, геймдеву, визуальным сторителлерам — создание стилизованных ассетов и артов 🔗GitHub - ставим на комп 🗣Fantasy Talking(⭐️Полезно) Анимация лиц, тел и фонов по аудио — фотореалистичный deepfake из одного кадра. Очень годно! Считай бесплатный вариант недавно нашумевшего Omni Human Кому полезно: Создателям персонажей, блогерам, разработчикам цифровых аватаров и игр 🔗GitHub - ставим на комп 🧠Qwen 3 - от 5B до 235B Open-source LLM, сопоставимая (слегка мощнее) с GPT-o3 mini, имеет reasoning-режим Кому полезно: Разработчикам ИИ, аналитикам, NLP-исследователям — автономная альтернатива GPT для локального и коммерческого использования 🔗Статья с ссылками 💡Microsoft Phi-4-reasoning Компактная reasoning-модель (14B), близка к ведущим моделям при малых мощностях Кому полезно: Учёным, медицинским работникам и т.д. 🔗Сайт - Изучаем 🔗 HuggingFace - Тестим (Только выбери модель из списка) 🌐Web Thinker(⭐️Полезно) Автоматически ищет, анализирует и пишет отчёты по запросу — альтернатива DeepResearch Кому полезно: Исследователям, студентам, журналистам, SEO-специалистам, очень хорош в научных исследованиях — глубокий ресёрч с фактчекингом 🔗Сайт - Изучаем 🔗Github - Ставим на комп 🎶Обновление Suno до v4.5 Генерация музыки с живым вокалом, динамикой и стилями, я не пользуюсь(предпочитаю udio), но очень хвалят Кому полезно: Музыкантам, подкастерам, маркетологам — быстрое создание треков под стиль проекта 🔗Suno *v4.5 доступен в платной подписке 👇 Подпишись, сохрани и кидай друзьям #opensource#digest | AcidCrunch

Earth&Climate Tech

@earth_climate_tech · Post #352 · 24.07.2023, 16:00

ClimateLearn - машинное обучение в предсказании климата и погоды ClimateLearn - это библиотека в питоне для доступа к самым современным климатическим данным и моделям машинного обучения стандартизированным и простым способом. Эта библиотека предоставляет доступ к нескольким наборам данных, зоопарку базовых подходов, а также набору метрик и визуализаций для крупномасштабного сравнительного анализа методов статистического масштабирования и временного прогнозирования. В этом ноутбуке можно поучиться как пользоваться. #ML#AI#climate

Resemble AI — полностью опен-сорсный проект! 🔗Репозиторий 🔗Онлайн-демо ✨ Возможности • Клонирование голоса по 5 секундам записи • Точный контроль эмоций — от едва уловимых до драматических • Синтез быстрее классического real-time инференса • Встроенный водяной знак для защиты контента 🛠 Все под лицензией MIT: можно свободно использовать, модифицировать и встраивать в свои проекты. #audiogen#opensource | AcidCrunch

🔥Minimax M1: Китайский ИИ, который учился за $534K — а делает как за $100M Всего через полгода после триумфа DeepSeek R1 на сцену выходит Minimax M1 — новая open-source модель из Шанхая с контекстом 1 млн токенов и производительностью на уровне GPT-4o и Claude 3. Но главное — её обучение стоило всего $534 000 — в 200 раз дешевле, чем GPT-4o от OpenAI. Почему это важно для нас? 1️⃣Бесплатно и открыто M1 выложена в открытый доступ (Apache 2.0) — можно кастомизировать код, встраивать в свои продукты, учить на своих данных. 2️⃣Создаёт сложные проекты «в один клик» Пишет чистый код, строит работающие сайты (например, виртуальный тур по Индии) с картами, API и логикой. 3️⃣Экономит ресурсы Благодаря архитектуре Mixture-of-Experts и «молниеносному вниманию» (Lightning Attention) тратит на 75% меньше вычислений, чем аналоги. 4️⃣Уже работает Доступна в двух версиях: - M1-40K — для стандартных задач; - M1-80K — для сложной аналитики и агентных сценариев. 👉Англоязычный разбор — в статье VentureBeat: Minimax M1: Open-Source Model with 1M Token Context 💡Фишка поста: M1 не просто «ещё одна модель» — это доказательство, что дорогой ИИ — не значит лучший. Китайские стартапы бросают вызов гигантам вроде OpenAI, снижая порог входа в ИИ для всех. #Minimax#ИИ#OpenSource#Китай#GPT Пробуем здесь. https://t.me/semasci