🌟LMCache: умное кэширования для LLM-инференса.
LMCache - проект, который предлагает решение по сохранению KV-кэша на CPU, диске или даже в специализированной памяти NIXL. По сути, это инструмент, который превращает одноразовые вычисления в многократно используемые блоки, экономя время и ресурсы.
Представьте, что в чат-боте пользователи часто ссылаются на один и тот же системный промпт или историю диалога. Обычно модель заново обрабатывает эти данные, но LMCache просто загружает готовый кэш. Выгрузка KV-кэшей освобождает GPU для новых задач, уменьшая TTFT (время до первого токена) вплоть до 10 раз.
🟡LMCache гибкий.
Кэши можно не только выгружать, но и делиться между разными инстансами LLM. Проще говоря, если два пользователя одновременно обращаются к разным копиям модели с одинаковым запросом, система не будет дублировать работу: результаты одного prefill’а станут доступны всем. Это работает даже для неполных префиксов, например, при частичном совпадении входных данных.
🟡LMCache умеет в раздельную предобработку.
Prefill и decode, которые обычно выполняются на одном GPU, теперь могут быть разнесены: первый этап обрабатывается на мощных узлах, а второй на оптимизированных для генерации. Для распределенных систем такая техника повысит пропускную способность.
Тесты разработчиков проекта показывают, что в реальных задачах задержка снижается в 3–10 раз, а GPU-циклы экономятся на повторных вычислениях.
Проект тесно интегрируется с vLLM, в репозитории есть большой набор с примерами, документация и советы по установке и настройке.
⚠️Калькулятор KV-кеша с выбором модели, ее типа данных и количества токенов, который поможет прикинуть, сколько VRAM можно сэкономить.
📌Лицензирование: Apache 2.0 License.
🖥Github
@ai_machinelearning_big_data
#AI#ML#LLM#LMCache#KVCache#Github
Everyone and everything has the right to choose to be anointed into any religion - all you need is some holy water and a bit of holy gasoline ⛽⛪
#muskfactor#holygasoline#holywater#anointed#ai#steellivesmatter
🌟PrismAudio: генерация звука по видео.
Лаборатория Tongyi (Qwen) опубликовала практическую часть проекта PrismAudio, участника ICLR 2026. Это фреймворк для задачи Video-to-Audio, то есть синтеза звуковой дорожки по видео.
Модель разделяет задачу генерации звука на 4 перцептивных измерения и работает с каждым отдельно через специализированные модули рассуждений и соответствующие им функции вознаграждения.
Предшественник PrismAudio, модель ThinkSound, первой применила CoT для V2A: MMLM сначала описывала, какой звук нужен, а затем диффузионная модель его генерировала.
Это было громоздко. ThinkSound использовала единый, монолитный блок рассуждений для всех аспектов звука одновременно.
Когда модель пыталась одновременно понять семантику сцены, выстроить тайминг, оценить эстетику и расположить звук в пространстве - качество каждого измерения страдало.
PrismAudio разбивает процесс рассуждения на 4 независимых CoT-модуля:
🟠Semantic CoT определяет, какие звуковые события соответствуют видеоряду;
🟠Temporal CoT выстраивает их последовательность и синхронизацию;
🟠Aesthetic CoT отвечает за естественность и качество звука;
🟠Spatial CoT — за пространственное позиционирование в стереопанораме.
Каждому модулю назначена своя reward-функция: семантическое соответствие оценивает MS-CLAP от Microsoft, темпоральную синхронизацию Synchformer, эстетику Audiobox Aesthetics, пространственную точность StereoCRW.
Такая архитектура позволяет обучать модель с подкреплением сразу по 4 осям, не жертвуя одним измерением ради другого.
Для RL-обучения авторы предложили Fast-GRPO - модификацию, которая применяет SDE-сэмплирование только в небольшом случайном окне шагов, а остальную траекторию проходит детерминированно через ODE.
По данным техотчета, Fast-GRPO достигает финального результата за 200 шагов обучения вместо 600 и при этом выходит на более высокий итоговый показатель.
🟡Тесты
🟢На VGGSound модель показала CLAP 0,47 против 0,43 у ThinkSound, DeSync 0,41 против 0,55, а ошибку пространственного позиционирования CRW снизила с 13,47 до 7,72.
🟢На внутреннем бенче AudioCanvas, который авторы создали для оценки сложных сцен разрыв еще заметнее: ThinkSound деградирует по темпоральной метрике до 0,80, а PrismAudio удерживает 0,36.
🟢Субъективные оценки MOS-Q и MOS-C также оказались наивысшими среди всех протестированных моделей.
🟢Опубликованная модель PrismAudio показывает самое быстрое время инференса: 0,63 секунды на 9-секундный фрагмент без учета извлечения признаков.
🟡Но вот с извлечением признаков есть нюанс.
По отзывам пользователей, извлечение признаков для 10-секундного видео требует около 43 ГБ видеопамяти.
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Модель
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#V2A#PrismAudio#TongyiLab
Tiny Aya: семейство мультиязычных SLM.
Cohere Labs выкатили семейство моделей Tiny Aya на 3 млрд. параметров с контекстным окном 8К, которое поддерживает 70+ языков.
Семейство заявляется как достойный кандидат для локальных переводчиков, чат-ботов и образовательных тулзов в оффлайн-режиме. Если необходимо, чтобы было быстро, локально и переводить суахили или кхмерский лучше, чем Llama - это вот оно.
🟡Фишка релиза в дата-инжиниринге.
Tiny Aya учили на 6 трлн. токенов, а проблему нехватки данных для редких языков решали через синтетику от моделей-учителей (своя Command R + DeepSeek-V3).
Вместо того чтобы учить одну модель всему сразу, разбили данные на языковые кластеры (Европа, Азия, Африка и т.д.) и дотюнивали отдельные ветки, после чего смержили эти региональные чекпоинты в глобальную модель Tiny Aya Global.
🟡Состав семейства
Tiny Aya Global: Универсальный чекпоинт для всех языков.
Tiny Aya Earth: Африка и Западная Азия.
Tiny Aya Fire: Южная Азия.
Tiny Aya Water: Азиатско-Тихоокеанский регион и Европа. Мы тут
GGUF: Есть к каждой версии в 4, 8 и 16-бит.
iOS и Android: модели доступны в PocketPal
🟡Результаты тестов
Global-версия бьет Gemma 3-4B в 46 языках из 61 на бенче WMT24++.
На iPhone 17 Pro выдает 32 токена/сек, на стареньком iPhone 13 - около 10 токенов/сек в квантовании Q4_k_m.
Самый высокий показатель безопасности (91.1%) среди конкурентов (Qwen3-4B, Ministral-3-3B).
🟡Капля реализма
Это 3B модель. В сложных задачах она очевидно хуже или где-то рядом с одноклассниками, чудес ждать не стоит.
Несмотря на заявленное разнообразие, английский язык занимает львиную долю датасета во всех кластерах.
При сильном сжатии (ниже Q4) качество начинает заметно страдать, особенно на редких языках.
📌Лицензирование: CC-BY-NC-4.0 License.
🟡Блогпост
🟡Набор моделей
🟡Техотчет
🟡Demo
@ai_machinelearning_big_data
#AI#ML#SLM#TinyAya#Cohere
🌟TurboDiffusion: ускорение генерации видео в 100+ раз.
Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.
Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.
Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу.
🟡Архитектура держится на 3-х китах оптимизации:
🟢Заменили стандартное внимание на гибрид из SageAttention2++ и Sparse-Linear Attention (SLA), который превратил квадратичную сложность в линейную. чтобы модель фокусировалась только на важных токенах.
🟢Дистиллировали сэмплинг через rCM - вместо стандартных 50–100 шагов модель приходит к результату всего за 3-4 шага без потери сути изображения.
🟢Перевели и веса и активации линейных слоев в INT8 используя блочное квантование, чтобы не потерять точность.
В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов.
🟡Результаты бенчмарков выглядят как опечатка, но это не она.
На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды.
Это ускорение больше чем в 100 раз.
При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала.
📌Лицензирование: Apache 2.0 License.
🟡Набор моделей
🟡Техотчет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#I2V#T2V#TurboDiffusion
VGGT: Visual Geometry Grounded Transformer
Долгие годы создание трехмерных моделей из набора фотографий было уделом сложных и медленных алгоритмов вроде Structure-from-Motion. Этот процесс напоминает многоэтапный конвейер: найти ключевые точки, сопоставить их между кадрами, триангулировать, а затем долго и мучительно оптимизировать геометрию всей сцены.
Инженеры из компании Марка Цукерберга и Оксфордского университета решили, что пришло время отдать всю эту работу одной нейросети. И, кажется, у них получилось.
Их разработка, VGGT (Visual Geometry Grounded Transformer), и это, по сути, первая настоящая фундаментальная модель для 3D-реконструкции.
Она не просто ускоряет старые процессы, а полностью меняет парадигму, превращая сложный многоступенчатый пайплайн в вызов одной функции. Вы просто скармливаете ему от одной до сотен фотографий, а модель за несколько секунд выдает полный набор 3D-атрибутов: точные параметры каждой камеры, карты глубины, плотное облако точек и даже траектории движения точек по всей последовательности изображений.
И все это за один проход, без какой-либо итеративной оптимизации.
Под капотом у VGGT - трансформер на 1.2 миллиарда параметров с механизмом попеременного внимания. Модель то «всматривается» в детали каждого отдельного кадра, то «окидывает взглядом» всю сцену целиком, анализируя связи между разными ракурсами. Это позволяет ей одновременно понимать и локальный контекст, и глобальную геометрию.
Даже в «сыром» виде, без постобработки, VGGT опережает DUSt3R и MASt3R: 0.2 секунды против почти 10 секунд. Но самое интересное начинается, когда на выходные данные VGGT «накладывают» быструю классическую оптимизацию Bundle Adjustment. Этот гибридный подход бьет все рекорды, устанавливая новый стандарт качества в задачах оценки поз камер и реконструкции.
⚠️ На одной H100 с Flash Attention 3 обработка 1 входного изображения занимает 0.04 сек при потреблении VRAM 1.88 ГБ, 10 изображений - 0.14 сек и 3.63 ГБ, 50-ти - всего 1.04 сек при 11.41 Гб, а 200 изображений - 8.57 сек с 40.63 Гб.
📌Лицензирование: CC-BY-NC-4.0 License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Transformer#3DRecon#VGGT
#The_Wired🇺🇸📕[PDF]⬇️
#November2025
#December2025
#Monthly_Magazines
For learning, for free(dom).
@backupofmagazines
This issue dives into #SiliconValley’s high-stakes entanglement with #Washington. Covering surrogacy battles, the legacy of tech billionaire Mike Lynch, and profiles of rising #political influencers, the issue also asks: can #AI and new media reshape democracy? Highlights include #ElonMusk’s satellite empire, the enduring saga of #Dogecoin, and a new generation of digital power players. With stories on semiconductors, 5G paranoia, and the shifting #creator economy, this edition explores how tech has gone “all in” on politics—raising urgent questions for the future of power.
ChatGPT-5 taqdimoti: Sam Altman o‘z texnologiyasidan qo‘rqyaptimi?
7-avgust ya'ni bugun OpenAI tomonidan ChatGPT-5 modeli rasmiy taqdim qilindi. Yangi model haqida juda ko‘p narsa aytildi, ammo eng ta’sirli so‘zlar aynan OpenAI asoschisi Sam Altmanning og‘zidan chiqdi.
🧠GPT-5 avvalgi modellar (GPT-4, GPT-4o)dan sezilarli darajada kuchli, mantiqiy va aqlli bo‘lib, u:
✅ Matn, rasm, video bilan ishlay oladi
✅ Murakkab topshiriqlarni tushunib, o‘zi hal qiladi
✅ Inson mantiqiga yaqin fikrlaydi
✅ Kontekstni uzoq muddatga eslab qoladi
🗣️Sam Altmanning ta’sirli so‘zlari
Taqdimot davomida, Sam Altman yangi model haqida quyidagi hayrat va xavotir aralash fikrlarni bildirdi:
“Men o‘zimni befoyda his qildim — bu narsada AI oldida hech narsa qila olmayotgandek edim. Menga qiyin tuyulgan vazifani AI shunchaki bajarib tashladi. Bu g‘alati his edi.”
— Sam Altman
“Ilmda ba’zida shunday holatlar bo‘ladiki, odamlar o‘z yaratgan narsalariga qarab: ‘Nima qilib qo‘ydik o‘zi?’ deb o‘ylashadi.”
Va bu texnologiyani Manhattan loyihasi — ya’ni atom bombasi yaratilgan tarixiy ilmiy loyiha bilan taqqosladi:
“Oxirgi marta shunaqa hisni Manhattan loyihasi paytida odamlar boshdan kechirgan bo‘lishsa kerak.”
📛 Bundan tashqari, u AI rivoji nazoratsiz ketayotgani haqida ham fikr bildirib o'tdi.
Sam Altmanning bu so‘zlari oddiy marketingdan ko‘ra insoniyat kelajagi haqidagi chin xavotirni bildiradi. ChatGPT-5 faqatgina yangi texnologik yutuq emas ehtimol, sun’iy intellektning jamiyatdagi o‘rni haqida jiddiy o‘ylashimizga sabab bo‘ladi.
Siz nima deb o‘ylaysiz?
Bu sun’iy intellekt — yordamchimi, xavfmi?
🗨️ Fikringizni izohda yozib qoldiring!
#ChatGPT5#OpenAI#SamAltman#TexnologiyaYangiliklari#SuniyIntellekt#AI
👉@jonibek_turapov