TGTGInsightаналитика telegramLIVE / telegram public index
← DeepSchool
DeepSchool avatar

TGINSIGHT POST

Post #416

@deep_school

DeepSchool

Просмотры6,700Количество просмотров
Опубликован13 авг.13.08.2024, 16:00
Содержимое поста

Содержимое

Модели Llama 3 Для тренировки LLM с нуля нужны большие вычислительные ресурсы, которые есть только у крупных компаний. Обычно они не рассказывают, как им удаётся обучить очередную модель. Но недавно вышел отчёт о LLAMA3 — на сегодняшний день самый подробный отчёт о тренировке больших языковых моделей. И хотя не всем компаниям доступны аналогичные вычислительные ресурсы, отчёт содержит несколько идей, полезных для многих датасаентистов. В этой статье мы познакомились с отчётом и рассказали: - как отбирались данные для модели - как модель тренировалась - как делали посттрейнинг Читайте новую статью по ссылке: https://deepschool-pro.notion.site/Llama-3-786f63f46eb04c3ead43e054350c18f4