TGTGInsightаналитика telegramLIVE / telegram public index
Содержимое поста
Содержимое
Deepseek V4 наконец вышел! Короткий обзор: - 2 версии, Pro (1.6T-A49B) и Flash (284B-A13B). - Все модели поддерживают reasoning effort (instant, обычный и max). - По бенчмаркам это лучшая open source модель, по некоторым сопоставима с gpt-5.4 и opus 4.6. - Выложены как чат-модели, так и базовые, в том числе для V4-Pro, таким образом, это самая мощная базовая модель в опенсорсе на данный момент. - Базовые версии в FP8, чат - в FP4+FP8. - В архитектуре используется новый атеншен (CSA+HCA) и mHC, модель обучалась с оптимайзером Muon. - Модель обучена на 32T токенов. - Модель SOTA на RuQalBench среди опенсорса. - Лицензия MIT на всё. Модели, блогпост, техрепорт