TGTGInsightаналитика telegramLIVE / telegram public index
Содержимое поста
Содержимое
🧠 Build Hour: Reinforcement Fine-Tuning (OpenAI) Как прокачать рассуждения LLM без гигантской разметки: на сессии показывают RFT — обучение с градером (программной рубрикой), пошагово: постановка задачи, дизайн градеров, запуск обучения и оценка. В демо берут юридическую классификацию (Eurovoc) и учат o4-mini; есть Q&A и кейс Accordance. Что получите: • когда выбирать RFT vs SFT/PFT и почему RFT работает на десятках–сотнях примеров; • практику написания градеров и защиты от reward-hacking; • рабочий пайплайн обучения/валидации + как читать кривые reward; • код и материалы: репозиторий build-hours и RFT-гайды в Cookbook. https://youtu.be/YWLOo_fc5oA?si=E3wlURWRJ9KDZXlF