TGTGInsighttelegram intelligenceLIVE / telegram public index
← 折腾实验室频道

TGINSIGHT SIMILAR POSTS

查找相似内容

Source channel @TossLabChannel · Post #521 · 1月15日

#青龙更新 青龙 v2.18.1 更新说明 青龙 v2.18.1 发布!本次更新优化功能并修复问题: • 新增功能:内置 QLAPI 增加环境变量和系统通知 API。 • 调整:移除 nedb 和 sentry,不再支持 2.10.x 版本自动迁移。 • 修复:多语言翻译问题改进。 更新方法: • 面板更新:系统设置 -> 其他设置 -> 检查更新 • 容器内更新:执行 ql update • Debian 用户:直接同步更新。 • 宿主机更新:运行命令 docker run --rm -v /var/run/docker.sock:/var/run/docker.sock containrrr/watchtower -cR <容器名> 版本镜像: • 正式版:whyour/qinglong:latest • Python3.10 正式版:whyour/qinglong:python3.10 • Debian 版:whyour/qinglong:debian • Python3.10 Debian 版:whyour/qinglong:debian-python3.10 • NPM 安装:npm i -g @whyour/qinglong 📢 群聊: @TossLab 🎈 频道: @TossLabChannel ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ 🔘折腾系列频道 - 全面介绍 🔘境外离岸银行教程合集目录 🔘折腾实验室优质Github项目合集

Results

找到 2 条相似帖子

搜索 #kvcache

当前筛选 #kvcache清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8027 · 2025/07/11 12:05

🌟LMCache: умное кэширования для LLM-инференса. LMCache - проект, который предлагает решение по сохранению KV-кэша на CPU, диске или даже в специализированной памяти NIXL. По сути, это инструмент, который превращает одноразовые вычисления в многократно используемые блоки, экономя время и ресурсы. Представьте, что в чат-боте пользователи часто ссылаются на один и тот же системный промпт или историю диалога. Обычно модель заново обрабатывает эти данные, но LMCache просто загружает готовый кэш. Выгрузка KV-кэшей освобождает GPU для новых задач, уменьшая TTFT (время до первого токена) вплоть до 10 раз. 🟡LMCache гибкий. Кэши можно не только выгружать, но и делиться между разными инстансами LLM. Проще говоря, если два пользователя одновременно обращаются к разным копиям модели с одинаковым запросом, система не будет дублировать работу: результаты одного prefill’а станут доступны всем. Это работает даже для неполных префиксов, например, при частичном совпадении входных данных. 🟡LMCache умеет в раздельную предобработку. Prefill и decode, которые обычно выполняются на одном GPU, теперь могут быть разнесены: первый этап обрабатывается на мощных узлах, а второй на оптимизированных для генерации. Для распределенных систем такая техника повысит пропускную способность. Тесты разработчиков проекта показывают, что в реальных задачах задержка снижается в 3–10 раз, а GPU-циклы экономятся на повторных вычислениях. Проект тесно интегрируется с vLLM, в репозитории есть большой набор с примерами, документация и советы по установке и настройке. ⚠️Калькулятор KV-кеша с выбором модели, ее типа данных и количества токенов, который поможет прикинуть, сколько VRAM можно сэкономить. 📌Лицензирование: Apache 2.0 License. 🖥Github @ai_machinelearning_big_data #AI#ML#LLM#LMCache#KVCache#Github

Machinelearning

@ai_machinelearning_big_data · Post #8010 · 2025/07/10 11:37

⚡️ Китайские исследователи из Shanghai Jiao Tong и Zhejiang University представили MemOS — первую в мире "операционную систему памяти" для ИИ. Обычные LLM быстро забывают информацию, а дообучать их — долго и дорого. В новой работе предлагают радикально другой подход: MemOS превращает память в часть операционной системы. 🟢Память как файлы: Модель может *записывать, перемещать и удалять* знания, как будто работает с файлами, и делать это прямо во время работы, а не только на этапе обучения. 🟢MemCube — контейнер знаний: Каждое знание упаковывается в кубик с метками времени и авторства. Планировщик сам решает, где хранить этот "куб" — в тексте, GPU‑кэше или в виде маленького патча весов. 🟢Умная экономия: MemOS работает с 1500 токенами памяти, но достигает такой же точности, как если бы модель загружала весь контекст. При этом скорость — как у облегчённых моделей. 🟢Мгновенная подгрузка: На тестах с Qwen2.5‑72B переключение нужных "кубов" в кэш снижает задержку первого токена на 91.4%, *без изменения ответа*. 🟢Результаты: MemOS набрал 73.31 балла по LLM‑Judge на LOCOMO-бенчмарке — почти на 9 баллов больше ближайшего конкурента. Особенно хорошо работает на сложных задачах с несколькими шагами и временными зависимостями. 💡 Итог: память как ОС — это не просто удобно, это ускоряет модель, повышает точность и даёт контроль над знаниями. Установка: pip install MemoryOS 🟠GitHub 🟠Проект @ai_machinelearning_big_data #MemoryOS#agentmemory#rag#kvcache