TGTGInsighttelegram intelligenceLIVE / telegram public index
← GitHub Trends

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @githubtrending · Post #15029 · Aug 5

#java#cache#caffine#data#draft#fetch#graphql#immer#immutable#immutable_collections#immutable_datastructures#java#jdbc#kotlin#orm#orm_framework#orm_library#orms#redis#redis_cache Jimmer is a powerful and advanced ORM (Object-Relational Mapping) framework for Java and Kotlin that lets you easily read and write complex data structures without needing to predefine their shapes. It supports dynamic multi-table queries, automatic SQL optimization, and efficient saving of incomplete or nested objects. Jimmer also generates type-safe DTOs (Data Transfer Objects) for complex queries and updates, avoids common problems like "N+1" queries, and offers strong caching and GraphQL support. This means you can build complex business logic faster and with less hassle, improving both development speed and code quality. It works well with modern IDEs and supports both Java and Kotlin seamlessly. https://github.com/babyfish-ct/jimmer

Results

1 similar post found

Search: #lmcache

当前筛选 #lmcache清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8027 · 07/11/2025, 12:05 PM

🌟LMCache: умное кэширования для LLM-инференса. LMCache - проект, который предлагает решение по сохранению KV-кэша на CPU, диске или даже в специализированной памяти NIXL. По сути, это инструмент, который превращает одноразовые вычисления в многократно используемые блоки, экономя время и ресурсы. Представьте, что в чат-боте пользователи часто ссылаются на один и тот же системный промпт или историю диалога. Обычно модель заново обрабатывает эти данные, но LMCache просто загружает готовый кэш. Выгрузка KV-кэшей освобождает GPU для новых задач, уменьшая TTFT (время до первого токена) вплоть до 10 раз. 🟡LMCache гибкий. Кэши можно не только выгружать, но и делиться между разными инстансами LLM. Проще говоря, если два пользователя одновременно обращаются к разным копиям модели с одинаковым запросом, система не будет дублировать работу: результаты одного prefill’а станут доступны всем. Это работает даже для неполных префиксов, например, при частичном совпадении входных данных. 🟡LMCache умеет в раздельную предобработку. Prefill и decode, которые обычно выполняются на одном GPU, теперь могут быть разнесены: первый этап обрабатывается на мощных узлах, а второй на оптимизированных для генерации. Для распределенных систем такая техника повысит пропускную способность. Тесты разработчиков проекта показывают, что в реальных задачах задержка снижается в 3–10 раз, а GPU-циклы экономятся на повторных вычислениях. Проект тесно интегрируется с vLLM, в репозитории есть большой набор с примерами, документация и советы по установке и настройке. ⚠️Калькулятор KV-кеша с выбором модели, ее типа данных и количества токенов, который поможет прикинуть, сколько VRAM можно сэкономить. 📌Лицензирование: Apache 2.0 License. 🖥Github @ai_machinelearning_big_data #AI#ML#LLM#LMCache#KVCache#Github