Post #4677

@startupandtech

🚀 Андрей Артищев

Просмотры27Количество просмотров

Опубликован19 сент.19.09.2025, 19:32

Содержимое поста

Содержимое

🧠 Build Hour: Reinforcement Fine-Tuning (OpenAI) Как прокачать рассуждения LLM без гигантской разметки: на сессии показывают RFT — обучение с градером (программной рубрикой), пошагово: постановка задачи, дизайн градеров, запуск обучения и оценка. В демо берут юридическую классификацию (Eurovoc) и учат o4-mini; есть Q&A и кейс Accordance. Что получите: • когда выбирать RFT vs SFT/PFT и почему RFT работает на десятках–сотнях примеров; • практику написания градеров и защиты от reward-hacking; • рабочий пайплайн обучения/валидации + как читать кривые reward; • код и материалы: репозиторий build-hours и RFT-гайды в Cookbook. https://youtu.be/YWLOo_fc5oA?si=E3wlURWRJ9KDZXlF