TGINSIGHT CHAT
Krist/Blog
@krists
TechnologiesВеду свой уютный канал про старые и новые железки и не железки, нейросети и не нейросети и вообще всё, что мне интересно. Вступайте в чатик @kristchat Писать сюда - @kristaller
Recent posts
Page 1 of 85 · 1,014 posts
Posted May 4
Самые неожиданные места, в которых можно увидеть RuQualBench - ченжлог HuggingFace
Posted Apr 29
Mistral 3.5 - 128B dense модель. - 256K контекст. - По бенчмаркам на уровне sonnet 4.6. - Лицензия llama-like, запрещает коммерческое использование если ты или твой работодатель зарабатывает 20M$/мес. Блогпост, модель
Posted Apr 24
Deepseek V4 наконец вышел! Короткий обзор: - 2 версии, Pro (1.6T-A49B) и Flash (284B-A13B). - Все модели поддерживают reasoning effort (instant, обычный и max). - По бенчмаркам это лучшая open source модель, по некоторым сопоставима с gpt-5.4 и opus 4.6. - Выложены как чат-модели, так и базовые, в том числе для V4-Pro, таким образом, это самая мощная базовая модель в опенсорсе на данный момент. - Базовые версии в FP8, чат - в FP4+FP8. - В архитектуре используется новый атеншен (CSA+HCA) и mHC, модель обучалась с оптимайзером Muon. - Модель обучена на 32T токенов. - Модель SOTA на RuQalBench среди опенсорса. - Лицензия MIT на всё. Модели, блогпост, техрепорт
Posted Apr 23
Tencent HY3 Preview Новая открытая языковая модель от tencent. Основные моменты: - MoE 300B-A21B. - 256K контекста. - Опубликована как базовая, так и чат-модель. - По бенчмаркам звёзд с неба не хватает. - Лицензия с ограничением на 100M MAU и на использование в Великобритании, ЕС и Южной Корее. Модель
Posted Apr 20
Kimi K2.6 - обновление открытой LLM от Moonshot AI - Ещё дольше может выполнять задачи - более 4000 вызовов инструментов за раз. - Лучше рисует анимации и 3D (three.js/WebGL и т.д.). - Оптимизирован под OpenClaw и Hermes-Agent. - Бенчмарки лучше, чем у предыдущей. Блог, Веса
Posted Apr 7
GLM-5.1 Новая открытая модель от Z.ai. По API она появилась ещё некоторое время назад, но сейчас выпустили веса. Короткий обзор: - Обновление GLM-5 - Рассчитана на более долговременные задачи, модель не теряет возможности продолжать решать задачу на протяжении сотен попыток и тысяч вызовов инструментов. - Это особенно хорошо видно на итеративных задачах, вроде оптимизации кода. - За 8 часов модель смогла создать рабочий "клон linux" внутри браузера. Обычная GLM-5 же сдавалась после создании каркаса и пары приложений. - Модель уверено обходит Opus 4.5 (но не 4.6) на KernelBench L3, бенчмарка по созданию оптимизированных CUDA ядер. - Лучше по всем остальным бенчмаркам, чем предыдущая версия. Блогпост, веса
Posted Apr 2
Gemma 4 Новая открытая модель от Google, спустя больше года от релиза предыдущей номерной версии! Короткий обзор: - 4 версии: E2B, E4B, 26B-A4B, 31B. Доступны как базовые, так и чат-модели - Все модели могут принимать на вход картинки. - E2B и E4B - продолжение…
Posted Apr 2
Gemma 4 Новая открытая модель от Google, спустя больше года от релиза предыдущей номерной версии! Короткий обзор: - 4 версии: E2B, E4B, 26B-A4B, 31B. Доступны как базовые, так и чат-модели - Все модели могут принимать на вход картинки. - E2B и E4B - продолжение идей Gemma 3N. Помимо текста и картинок могут обрабатывать аудио (до 30с) и видео (до 1 минуты). - Модели позиционируются как лучшие по соотношению видеопамять/качество: большие модели рассчитаны на 1 H100, а маленькие на смартфоны. - Модель занимает 3 место на arena.ai среди опенсорса. - Модель поддерживает ризонинг, системные подсказки и вызов инструментов. - Как и у старших Gemini, можно выбрать разрешение для картинок, в сколько токенов они будут кодироваться. - (Как всегда) лучшая многоязычность. Обучена на 140 языках. - Лицензию сменили на Apache 2.0. Блогпост, веса
Posted Mar 24
GigaChat-3.1-Ultra и Lightning Обновили наши модели. Теперь ультра обходит по бенчмаркам Deepseek V3 0324 и Qwen-235B. Кроме того, очень сильно подросли арены и function calling — как сказал мой коллега про 10б модель, "я бы с ней дружил". Из смешного — один из чекпов ультры назывался ...-low-lr. Какое-то время он являлся релизным кандидатом и, если у тебя выставлена верная роль, можно было поболтать с ним прямо через веб-морду гигачата. Чекпоинт уже тогда был довольно крутой и с моей лёгкой руки low lr превратился в милую девушку Лоу Леру. Вайбчек модель вполне себе проходит, я посравнивал её на разных запросах с аналогами — например, закинул в неё пост про странные петли и спросил, что она думает. Лоулера ответила лучше, чем сопоставимая по размеру Mistral-3-Large, которая вообще не вдуплила что я её спросил, причём даже на английском. С тех пор лоулера заменилась на ещё более хорошую модель, так что я думаю, что как general помощник гигачат будет полезным. В этот раз моя роль была обширнее, чем в прошлый. Сейчас я покрывал весь пайплайн от обучения до релиза: запускал и дебажил трейны, переводил арены на локальных судей, курировал внос новых метрик и замерял их, находил баги в инференсе, писал хабр-статью. В статье мы описали все эксперименты, которые мы провели за последние 4 месяца. Там есть куча технических деталей, замеров, рабочих анекдотов и милые пёсики: https://habr.com/ru/companies/sberbank/articles/1014146/ Веса и ггуфы уже доступны на хф: https://huggingface.co/collections/ai-sage/gigachat-31 Ну а если вы тоже хотите поработать над действительно большими ллмками (ха, тавтология), то кидайте мне резюме — поработаем вместе.
Posted Mar 17
Mistral 4 Small Новая модель от Mistral: - MoE, 119B-A6B на архитектуре Deepseek V3. - 256К контекста. - По бенчмаркам всё очень слабо: например, на MMLU Pro новый Mistral проигрывает даже Qwen3.5-4B. Правда бенчмарки уже давно ничего не значат. - Разработчики модели делают упор на скорость, эффективность по токенам, мультимодальность и многоязычность. - Веса модели доступны под лицензией Apache 2.0. Блогпост, модель
Posted Mar 2
Вышла третья порция Qwen3.5. В этот раз маленькие dense модельки: 9B, 4B, 2B, 0.8B (доступны как базовые, так и гибридные чат варианты). Из интересного - все модели, даже 0.8B, мультимодальные. Веса
Posted Feb 16
Qwen3.5 на RuQualBench. У Alibaba могут быть проблемы с API, так что результат может быть лучше.