TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #8789

@ai_machinelearning_big_data

Machinelearning

Просмотры27,800Количество просмотров
Опубликован16 окт.16.10.2025, 10:05
Содержимое поста

Содержимое

🔥 Nanochat D32 : микромодель Карпаты за $1000, которая реально работает Карпаты написал, что завершил обучение Nanochat D32, обученной за 33 часа при бюджете $1000 (вместо $100). Результаты - удивительно хорошие для такой «крошки»: - 📈CORE score: 0.31 (выше, чем у GPT-2 — ~0.26) - 🧮GSM8K: с 8% до 20% - 🚀 Рост виден на всех этапах - pretraining, SFT и RL Карпати пишет: > «Не ждите от микромоделей чудес. Они обходятся $100–$1000, а не миллиарды долларов, как у крупных лабораторий. > Разговаривать с моделью - как с ребёнком из детсада: они милые, ошибаются, путаются, галлюцинируют, но это весело.» 💡Факты: - Nanochat тренируется с нуля - Самая маленькая модель Nanochat содержит примерно в тысячу раз меньше параметров, чем GPT-3. - Обнолвенный скрипт run1000.sh уже доступен в репозитории 📎 Подробности и отчёт: https://github.com/karpathy/nanochat/discussions/8 Карпати уже тестирует веб-чат с моделью (ссылку не публикует, чтобы не обвалили сервер). Дальше -оптимизация и возможно, переход к следующему уровню масштабирования. #AI#LLM#Nanochat#Karpathy#AIresearch#OpenSourceAI