TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват166,300Просмотры последних постов
Последние посты

Последние посты

Тег: #karpathy · 5 постов

当前筛选 #karpathy清除筛选

Опубликован 9 янв.

📌Андрей Карпаты нашел идеальный баланс токенов и параметров для обучения LLM. Андрей Карпаты опубликовал результаты экспериментов по оптимизации претрейна языковых моделей в условиях фиксированного бюджета. Чтобы найти наиболее эффективный способ расходования вычислительных ресурсов, он провел серию тестов на сервере с 8х GPU H100, обучив 11 моделей разного размера при одинаковых затратах на вычисления. 🟡Главный вывод: существует «золотое сечение». Карпаты обнаружил, что по мере увеличения мощностей оптимальное количество параметров и тренировочных токенов растут синхронно. Эмпирическое правило для протестированных конфигураций: на 1 параметр модели должно приходиться примерно 8 токенов обучающей выборки. Если модель слишком мала, она не усваивает достаточно информации; если слишком велика — бюджет заканчивается раньше, чем она успевает обучиться. Для инженеров этот рецепт позволяет заранее планировать архитектуру и бюджет, избегая создания заведомо неэффективных моделей. Традиционно, все эксперименты Андрея открыты и их можно повторить самостоятельно. 🔜Погрузиться в детали экспериментов @ai_machinelearning_big_data #AI#ML#LLM#Karpathy

39,800 views

Опубликован 19 нояб.

🌟Reader3: легковесная читалка для книг от Andrej Karpathy Андрей Карпаты опубликовал у себя в Github небольшой проект - утилиту под названием reader3. На первый взгляд, это просто легковесная читалка для электронных книг в формате EPUB, которую можно запустить у себя на компьютере. Но главная идея в том, чтобы читать книги вместе с LLM. Reader3 разбивает книгу по главам, и пользователь может легко скопировать текст текущей главы и вставить его в свой любимый LLM, чтобы обсуждать сюжет, анализировать стиль или задавать вопросы по тексту. Но самое интересное здесь — это философия, которая стоит за проектом. Карпаты пишет, что проект написан "на 90% вайбкодингом", просто для иллюстрации идеи и что он не собирается его поддерживать или улучшать. Я начинаю привыкать читать все (блоги, статьи, главы книг и т. д.) с помощью LLM. Обычно первый проход — ручной, второй — «объяснение/резюме», третий — вопросы и ответы. В результате я обычно получаю более глубокое понимание, чем если бы я просто прошел дальше. Этот процесс становится у меня одним из самых популярных вариантов чтения. А вместо этого предлагает пользователям... просто попросить свою языковую модель изменить код так, как им нравится. Код теперь эфемерный, — пишет Андрей, намекая на то, что эпоха статичных библиотек и долгой поддержки уходит в прошлое. Для тех, кто хочет попробовать, процесс максимально прост. Нужно скачать книгу в формате EPUB и запустить пару команд в терминале, используя uv: uv run reader3.py yourbook.epub # Then run the server: uv run server.py После этого ваша книжная полка станет доступна в браузере по адресу localhost:8123. 📌Лицензирование: MIT License. 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#Karpathy#Github#Book

34,800 views

Опубликован 24 окт.

🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы. Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи. Сначала генерируются диалоги: «Сколько букв r в слове strawberry?» и правильные ответы. После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык. Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы. Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу. Nanochat решает задачу двумя способами: — логически, рассуждая пошагово; — через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата. Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные. 📘 Разбор: github.com/karpathy/nanochat/discussions/164 @ai_machinelearning_big_data #AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource

43,500 views

Опубликован 16 окт.

🔥 Nanochat D32 : микромодель Карпаты за $1000, которая реально работает Карпаты написал, что завершил обучение Nanochat D32, обученной за 33 часа при бюджете $1000 (вместо $100). Результаты - удивительно хорошие для такой «крошки»: - 📈CORE score: 0.31 (выше, чем у GPT-2 — ~0.26) - 🧮GSM8K: с 8% до 20% - 🚀 Рост виден на всех этапах - pretraining, SFT и RL Карпати пишет: > «Не ждите от микромоделей чудес. Они обходятся $100–$1000, а не миллиарды долларов, как у крупных лабораторий. > Разговаривать с моделью - как с ребёнком из детсада: они милые, ошибаются, путаются, галлюцинируют, но это весело.» 💡Факты: - Nanochat тренируется с нуля - Самая маленькая модель Nanochat содержит примерно в тысячу раз меньше параметров, чем GPT-3. - Обнолвенный скрипт run1000.sh уже доступен в репозитории 📎 Подробности и отчёт: https://github.com/karpathy/nanochat/discussions/8 Карпати уже тестирует веб-чат с моделью (ссылку не публикует, чтобы не обвалили сервер). Дальше -оптимизация и возможно, переход к следующему уровню масштабирования. #AI#LLM#Nanochat#Karpathy#AIresearch#OpenSourceAI

27,800 views

Опубликован 18 авг.

⚡️ Андрей Карпаты о том, что делает стиль работы Илона Маска уникальным Карпаты, руководивший командой компьютерного зрения Tesla Autopilot, объясняет, почему Маск — особенный лидер. 1️⃣Маленькие, сильные, технические команды — В обычных компаниях команды разрастаются, но Илон всегда выступает против этого. — Наём новых людей нужно буквально «выбивать». — Низкоэффективных сотрудников он быстро убирает. — Никакого «среднего менеджмента» без технического бэкграунда. 2️⃣Офис как место драйва — Ненавидит стагнацию и большие бесполезные митинги. — Поощряет уходить со встреч, если ты не учишься и не вносишь вклад. — Культура: меньше «комфорта», больше фокуса на интенсивной инженерной работе. 3️⃣Прямой контакт с инженерами — Обычно до CEO не добраться напрямую — сотрудники общаются через несколько уровней начальников и вице-президентов. — Маск же много времени разговаривает напрямую с инженерами. — Источник истины — код и инженеры, а не менеджеры. 4️⃣Лично решает сложные вопросы — Если инженеры говорят: «Не хватает GPU», он сразу звонит ответственному за кластеры. — Если виновата NVIDIA — звонит напрямую Дженсену Хуану. 🟠Карпаты: «Многие недооценивают, насколько Илон вовлечён в повседневные операции. Он постоянно устраняет узкие места и держит руку на пульсе». 🟢Урок: маленькие сильные команды, прогрессивная инженерная культура и CEO, который лично решает критические проблемы. @ai_machinelearning_big_data #Karpathy#elonmusk

20,400 views