TGTGInsighttelegram intelligenceLIVE / telegram public index
← GitHub Trends

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @githubtrending · Post #14714 · May 16

#go#compression#decompression#deflate#go#golang#gzip#snappy#zip#zstandard#zstd The "github.com/klauspost/compress" package offers many fast and efficient compression tools in pure Go, including zstandard, S2 (a faster Snappy replacement), optimized deflate for gzip/zip/zlib, and snappy with better compression and concurrency. It also provides entropy encoders (huff0, FSE), HTTP gzip handlers, and a parallel gzip implementation (pgzip). These tools are drop-in replacements for Go's standard libraries but run about twice as fast, saving time and resources. You can easily add it to your project with `go get`. It supports current and recent Go versions and offers options to disable unsafe code or assembly for compatibility. This package benefits you by improving compression speed and efficiency while maintaining compatibility with standard Go compression APIs, making your applications faster and more resource-friendly. https://github.com/klauspost/compress

Results

1 similar post found

Search: #lmcache

当前筛选 #lmcache清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8027 · 07/11/2025, 12:05 PM

🌟LMCache: умное кэширования для LLM-инференса. LMCache - проект, который предлагает решение по сохранению KV-кэша на CPU, диске или даже в специализированной памяти NIXL. По сути, это инструмент, который превращает одноразовые вычисления в многократно используемые блоки, экономя время и ресурсы. Представьте, что в чат-боте пользователи часто ссылаются на один и тот же системный промпт или историю диалога. Обычно модель заново обрабатывает эти данные, но LMCache просто загружает готовый кэш. Выгрузка KV-кэшей освобождает GPU для новых задач, уменьшая TTFT (время до первого токена) вплоть до 10 раз. 🟡LMCache гибкий. Кэши можно не только выгружать, но и делиться между разными инстансами LLM. Проще говоря, если два пользователя одновременно обращаются к разным копиям модели с одинаковым запросом, система не будет дублировать работу: результаты одного prefill’а станут доступны всем. Это работает даже для неполных префиксов, например, при частичном совпадении входных данных. 🟡LMCache умеет в раздельную предобработку. Prefill и decode, которые обычно выполняются на одном GPU, теперь могут быть разнесены: первый этап обрабатывается на мощных узлах, а второй на оптимизированных для генерации. Для распределенных систем такая техника повысит пропускную способность. Тесты разработчиков проекта показывают, что в реальных задачах задержка снижается в 3–10 раз, а GPU-циклы экономятся на повторных вычислениях. Проект тесно интегрируется с vLLM, в репозитории есть большой набор с примерами, документация и советы по установке и настройке. ⚠️Калькулятор KV-кеша с выбором модели, ее типа данных и количества токенов, который поможет прикинуть, сколько VRAM можно сэкономить. 📌Лицензирование: Apache 2.0 License. 🖥Github @ai_machinelearning_big_data #AI#ML#LLM#LMCache#KVCache#Github