#turboquant 相似帖子 — Midjourney/Nano Banana Prompts NeuroSpark

@ai_machinelearning_big_data · Post #9736 · 25/03/2026 04:49

📌Google разработала алгоритм квантования KV-кэша без потери точности. Подразделение Research анонсировало TurboQuant, алгоритм векторного квантования, объединяющий 2 других метода - QJL и PolarQuant, который решает проблему увеличения KV-кэша при работе с длинным контекстом. TurboQuant будет представлен на ICLR 2026, PolarQuant - на AISTATS 2026. KV-кэш хранит промежуточные представления токенов, чтобы модель не пересчитывала их на каждом шаге генерации. С ростом контекста он превращается в узкое место по памяти. Обычное векторное квантование сжимает эти данные, но вносит накладные расходы: для каждого блока нужно хранить константы квантования в полной точности, а это плюс 1–2 бита на элемент, что частично обесценивает само сжатие. 🟡TurboQuant - двухэтапный пайплайн. Сначала PolarQuant: случайный поворот выравнивает геометрию векторов, после чего они переводятся из декартовых координат в полярные (радиус и угол). Распределение углов оказывается предсказуемым и сконцентрированным, поэтому нормализация и хранение дополнительных констант становятся больше не нужны. На втором этапе подключается QJL, метод на основе преобразования Джонсона-Линденштраусса, который кодирует остаточную ошибку первого этапа всего одним знаковым битом и через встроенную оценочную функцию сочетает высокоточный запрос с низкоточными сжатыми данными, корректно вычисляя attention score. Ни один из методов не требует обучения или дообучения и работает в режиме "без предварительного анализа набора данных". Алгоритмы тестили на бенчмарках для длинного контекста: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval с моделями Gemma и Mistral. При квантовании KV-кэша до 3 бит TurboQuant показал нулевую деградацию точности на всех задачах: поиск «иголки в стоге сена», QA, генерация кода, суммаризация. Объем KV-кэша при этом сократился в 6 раз. На H100 четырехбитный TurboQuant ускорил вычисление attention-логитов до 8 раз по сравнению с 32-битными ключами. Область применения не ограничивается KV-кэшем. В экспериментах с высокоразмерным векторным поиском TurboQuant стабильно превзошел по recall методы PQ и RaBitQ несмотря на то, что те использовали крупные код-буки и подстройку под конкретный датасет. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data 🎯Полезные Мл-ресурсы🚀Max #AI#ML#LLM#TurboQuant#Google

Hashtags

#ai #ml #llm #turboquant #google

Ryu일무이

@ryu1moo2 · Post #3823 · 27/03/2026 03:10

Trouver des similaires Voir

#메모리#TurboQuant#이세철 전무님 https://youtu.be/qZ9EBM5ziW0?si=KZ3ymo8siwfFoqm4 ◦ 반도체 시장 사이클 및 장기 전망 • 현재 AI 사이클은 야구로 치면 9회 중 이제 겨우 2회 초입 단계에 불과함 - 작년의 학습 수요를 넘어 올해부터 본격적인 추론 수요가 발생하며 사이클이 강화됨 • 과거 낸드 슈퍼사이클(2001~2007년) 사례를 비추어 볼 때, 이번 AI 사이클은 최소 7~9년 지속될 것으로 전망함 - 새로운 수요(MP3, 디카 등)가 시장을 키웠듯, AI라는 거대 수요가 장기 호황을 견인 → 장기적 펀더멘탈 유효 ◦ 구글 터보퀀트 알고리즘 및 효율화 이슈 분석 • 알고리즘 효율화로 메모리 수요가 줄 것이라는 시장의 우려는 과도함 • 제번스의 역설(Jevons Paradox) 관점에서 접근 필요 - 기술 발전으로 효율이 높아지고 가격이 하락 → 서비스 접근성 향상 → 사용량 폭증 및 신규 수요 창출로 이어짐 - 과거 클라우드 컴퓨팅 도입 시에도 메모리 수요 감소 우려가 있었으나, 결과적으로 서버 시장의 폭발적 성장을 불러옴 ◦ 메모리 기업의 가치 평가(Valuation) 변화 • 메모리 산업의 고질적 문제였던 '번앤버스트(호황과 불황의 반복)' 특성이 완화되는 추세 • 고객사들과의 3~5년 장기 공급 계약(LTA) 체결 확산 → 실적의 하방 경직성 확보 - 과거 적자 가능성 때문에 PBR(주가순자산비율)을 썼으나, 안정적 이익 창출로 PER(주가수익비율) 기반의 리레이팅이 가능해짐 - 특히 HBM은 수주형 비즈니스로 성격이 변모하며 소프트웨어 기업과 같은 높은 멀티플 부여 가능성 증대 ◦ 산업 생태계 변화 및 소부장 투자 전략 • ARM의 AI CPU 진출 등 플레이어 확대는 메모리 업체에 호재로 작용 - AI 서버용 CPU 탑재량 증가 → 모바일 기반 고성능 디램(LPDDR 등) 수요의 새로운 모멘텀 형성 • 국내 소부장(소재·부품·장비) 기업 중 특히 전공정 장비 업체에 주목할 필요가 있음 - 2027~2028년 용인 및 평택 캠퍼스의 신규 라인 가동 본격화 → 장비 발주 증대 → 전공정 업체들의 수혜 예상 (예: 원익IPS, 유진테크 등) ◦ 주의해야 할 리스크 요인 • 빅테크(하이퍼스케일러)들의 설비투자(Capex) 계획에 갑작스러운 변화가 생길 경우 • AI 서비스 경쟁이 종료되어 플레이어 수가 급격히 줄어드는 경우 • 메모리 가격 상승에 따른 스마트폰 및 PC 제조사들의 원가 부담 증대 → 범용 제품 수요 약화 가능성

Hashtags

#메모리 #turboquant #이세철

Trouver du contenu similaire

2 posts similaires trouvés