TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #403 · 31 дек.

С Новым Годом!🎄☃️❄️ Снова этот рубеж подведения итогов и определения планов на следующее 365 дней. Что же мы успели застать в 2к25? 🔸 AI снова делает скачёк в развитии, как по качеству, так и по затратам на ресурсы Продолжая расшатывать все рынки 🔸 Эпичный прорыв цен на железо (из-за первого факта). Сначала оперативка, потом и остальные подтянулись. Успели закупиться вовремя? 🔸 Новый виток "борьбы с интернетом" в РФ Работать всё сложней 🔸 Опенсорсный проект MinIO закрылся Теперь только в облаке и только за денежку Но не всё так плохо! 🔸 Всё больше уверенных мнений, что AI нас не заменит Но всем нужно адаптироваться к новым реалиям и инструментам 🔸 uv ворвался в прод Так и стандартом станет скоро 🔸 Вышел Django 6 Достаточно ли изменений для мажорной версии? 🔸 Вышел PIthon 3.14 с NO-GIL режимом Раньше это считалось невозможным! 🔸 В том же 3.14 мы получили полноценные Субинтерпретаторы и JIT И другие оптимизации 🔸 Язык Rust теперь официально второй язык ядра Linux Хоть и не без проблем 🔸 Проекту pythonotes 6 лет 🎂 Скоро в школу) Мир вокруг меняется постоянно и всё с большей скоростью. Не ищите виновных, просто адаптируйтесь и постоянно учитесь. И всё будет пучком! 😎 Оглядываясь назад в прошлое, задумайтесь, можете ли вы сказать тому себе из прошлого СПАСИБО за то, что вы имеете в настоящем? И хорошенько подумайте в этом настоящем, что нужно делать уже сейчас, чтобы вы из будущего стали лучшей версией себя настоящего и гордились своей версией из прошлого за заботу о будущем. Sir Christopher Edward Nolan :) #offtop

Hashtags

Резултати

Пронајдени 1 слични објави

Пребарај: #lmcache

当前筛选 #lmcache清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8027 · 11.07.2025 г., 12:05

🌟LMCache: умное кэширования для LLM-инференса. LMCache - проект, который предлагает решение по сохранению KV-кэша на CPU, диске или даже в специализированной памяти NIXL. По сути, это инструмент, который превращает одноразовые вычисления в многократно используемые блоки, экономя время и ресурсы. Представьте, что в чат-боте пользователи часто ссылаются на один и тот же системный промпт или историю диалога. Обычно модель заново обрабатывает эти данные, но LMCache просто загружает готовый кэш. Выгрузка KV-кэшей освобождает GPU для новых задач, уменьшая TTFT (время до первого токена) вплоть до 10 раз. 🟡LMCache гибкий. Кэши можно не только выгружать, но и делиться между разными инстансами LLM. Проще говоря, если два пользователя одновременно обращаются к разным копиям модели с одинаковым запросом, система не будет дублировать работу: результаты одного prefill’а станут доступны всем. Это работает даже для неполных префиксов, например, при частичном совпадении входных данных. 🟡LMCache умеет в раздельную предобработку. Prefill и decode, которые обычно выполняются на одном GPU, теперь могут быть разнесены: первый этап обрабатывается на мощных узлах, а второй на оптимизированных для генерации. Для распределенных систем такая техника повысит пропускную способность. Тесты разработчиков проекта показывают, что в реальных задачах задержка снижается в 3–10 раз, а GPU-циклы экономятся на повторных вычислениях. Проект тесно интегрируется с vLLM, в репозитории есть большой набор с примерами, документация и советы по установке и настройке. ⚠️Калькулятор KV-кеша с выбором модели, ее типа данных и количества токенов, который поможет прикинуть, сколько VRAM можно сэкономить. 📌Лицензирование: Apache 2.0 License. 🖥Github @ai_machinelearning_big_data #AI#ML#LLM#LMCache#KVCache#Github