TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #853 · 26.08

На работе переезжаем с микросервисов на монолит. Наигрались ) Вообще, удивительно, как идея микросервисов заразила когда-то умы людей в айти сфере. Почему-то на уровне концепции действительно кажется, что это вау, офигенно, переворачивает игру и так далее. Сейчас сделаем микросервисы и заживём: масштабирование, изоляция, параллельность разработки и так далее. В общем, у нас, как лично мне кажется, повода делать микросервисы особо не было, но несколько лет назад, когда проект начинали, поддались общей моде. После трёх огромных архитектурных рефакторингов стало ясно, что каждая микросервисная фича стоит дороже, чем объём реальной пользы, которую она приносит. И, в целом, я от других разработчиков много слышу последний год-два, что лодка качнулась обратно в сторону монолитов, в том числе модульных, так что мы даже в каком-то смысле опоздали с переездом. Через полгода расскажу вам, что в итоге вышло. А в комментариях, если вы работаете в большом энтерпрайзе, можете рассказать, как у вас сделано и почему. #dev

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #speculativedecoding

当前筛选 #speculativedecoding清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8524 · 12.09.2025 г., 11:00

⚡Speculative Cascades — как ускорить работу LLM Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле. Что это такое: 🔹Каскады Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать. 🔹Спекулятивная декодировка Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов. 🟢Speculative Cascades Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество. 🔥Что показали тесты (тестили на Gemma, T5): - быстрее, чем обычная спекулятивная декодировка - дешевле и качественнее, чем каскады - удобнее настраивать баланс «скорость ↔ качество» При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели). А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества. LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества. 🔗Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/ @ai_machinelearning_big_data #AI#LLM#Inference#SpeculativeDecoding#Cascades#GoogleResearch