TGTGInsightаналитика telegramLIVE / telegram public index
← 🚀 Андрей Артищев
🚀 Андрей Артищев avatar

TGINSIGHT POST

Post #4677

@startupandtech

🚀 Андрей Артищев

Просмотры27Количество просмотров
Опубликован19 сент.19.09.2025, 19:32
Содержимое поста

Содержимое

🧠 Build Hour: Reinforcement Fine-Tuning (OpenAI) Как прокачать рассуждения LLM без гигантской разметки: на сессии показывают RFT — обучение с градером (программной рубрикой), пошагово: постановка задачи, дизайн градеров, запуск обучения и оценка. В демо берут юридическую классификацию (Eurovoc) и учат o4-mini; есть Q&A и кейс Accordance. Что получите: • когда выбирать RFT vs SFT/PFT и почему RFT работает на десятках–сотнях примеров; • практику написания градеров и защиты от reward-hacking; • рабочий пайплайн обучения/валидации + как читать кривые reward; • код и материалы: репозиторий build-hours и RFT-гайды в Cookbook. https://youtu.be/YWLOo_fc5oA?si=E3wlURWRJ9KDZXlF