TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват121,100Просмотры последних постов
Последние посты

Последние посты

Тег: #kimi · 3 постов

当前筛选 #kimi清除筛选

Опубликован 31 окт.

🧨Kimi представили новую модель - Kimi-Linear-48B-A3B-Base Команда Moonshot показала KDA - механизм, который соединяет идеи Gated DeltaNet и MLA-компрессии в одну архитектуру. Звучит сложно, но суть очень практичная: модель получает долгую память без раздувания контекста и лишних вычислений. - KDA (Kimi Delta Attention: основной быстрый attention, улучшает эффективность и reasoning = MLA (Multi-Head Linear Attention) - помогает точности и стабильности. Модель не пересчитывает всё внимание каждый токен, а фокусируется на изменениях, что снижает затраты. Соотношение слоёв: ~3 части KDA : 1 часть ML. Модель в основном работает на «дельта-внимании» (KDA), а MLA помогает сохранять качество: - модель сама выбирает, что забывать, а что держать - это даетустойчивость при большом контексте выше - меньше распада длинных зависимостей Kimi-Linear хороша тем, что даёт почти уровень больших LLM на длинных контекстах, но при этом заметно экономит память и работает быстрее за счёт линейной архитектуры. Что улучшили: - требует до 75% меньше памяти на KV-кэш - до 6.3× быстрее декодирование на длинных контекстах Как устроена: - гибридный подход: Kimi Delta Attention + MLA - модель хорошо оптимизирована под длиннный контекст и высокую пропускную способность По бенчмаркам модель обгоняет и MLA, и GDN-H, включая задачи с длинным контекстом. В задачах на рассуждения и длинную RL-генерацию Kimi-Linear показывает заметно лучшие результаты, чем MLA. Архитектура модели пример того, как линейные attention-архитектуры выходят на уровень, где они конкурируют с классическими решениями не только по скорости, но и по качеству. 🟠Github: github.com/MoonshotAI/Kimi-Linear 🟠Hf: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct @ai_machinelearning_big_data #Kimi#llm

40,700 views

Hashtags

Опубликован 25 сент.

🤖 Kimi представила новый агентный режим OK Computer Что он может: ✨ Генерирует сайты, дашборды приложения и презентации ✨ Работает с файлами, браузером и терминалом ✨ Большой встроенный набор инструментов K2 получил полезный агентский функционал. 🟢Попробовать: https://kimi.com @ai_machinelearning_big_data #AI#Agents#Kimi#K2#OKComputer

36,300 views

Опубликован 11 июл.

🔥 Китай выпускает новую опенсорс модель: Kimi K2 — llm уровня Claude 4, которая обходит DeepSeek v3, Qwen и даже GPT-4.1 Размер — 1 триллион параметров, при этом: 📊 В бенчмарках: - 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1 - Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам - Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны. Также доступна через API: - $0.15 за миллион входных токенов (при попадании в кэш) - $0.60 за миллион входных токенов (если кэш не сработал) - $2.50 за миллион выходных токенов Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro! 🟡Github @ai_machinelearning_big_data #kimi#china#llm#ml#ai

44,100 views