TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
DevOps avatar

TGINSIGHT CHAT

DevOps

@DevOPSitsec

Технологии

По всем вопросам- @workakkk @itchannels_telegram - 🔥полезные ит-каналы https://t.me/Golang_google - Golang программирование @golangl - golang chat @GolangJobsit - golang channel jobs @golang_jobsgo - jobs РКН: clck.ru/3FmvZA #VRHSZ

Подписчики2.3万Текущее число подписчиков
Постов1,008Проиндексировано постов
Охват4,720Просмотры последних постов
Последние посты

Последние посты

Тег: #greso · 1 постов

当前筛选 #greso清除筛选

Опубликован 20 июн.

🌟GRESO: ускорение RL-обучения языковых моделей умным отбором данных. GRESO - это новый алгоритм для эффективного обучения с подкреплением больших языковых моделей, который сокращает вычислительные затраты на 40–60% без потери качества. Его суть в предварительной фильтрации «бесполезных» промптов, тех, что не дают модели обучаться, еще до дорогостоящей стадии rollout (генерации ответов модели). В основе GRESO — вероятностная модель, предсказывающая, стоит ли прогонять промпт через LLM. Алгоритм анализирует историю вознаграждений (reward dynamics) за прошлые эпохи обучения: если промпт много раз подряд давал идентичные награды на всех сгенерированных ответах (их называют zero-variance), он, скорее всего, бесполезен и сейчас. GRESO не блокирует их жестко, он вычисляет вероятность пропуска , опираясь на число идущих подряд «пустых» прогонов и базовую вероятность «исследования». Это позволяет иногда перепроверять сложные промпты, на тот случай, если вдруг модель «доучилась» и теперь они полезны. Базовая вероятность автоматически настраивается в реальном времени: если доля бесполезных промптов выше целевого значения (например, 25%), GRESO ее снижает, экономя ресурсы; если ниже — повышает, добавляя гибкости. Плюс, алгоритм разделяет промпты на легкие и сложные, применяя к ним разную политику исследования (сложные проверяет чаще, так как они перспективнее для обучения сильной модели). А чтобы не гонять большие батчи ради пары примеров, размер выборки динамически подстраивается под текущие нужды на основе вычисления из недостающих данных, α — текущей доли пустых промптов и запаса надежности. Хотя GRESO и экономит сотни часов на H100, делая RL-тюнинг доступнее, у него есть нюансы: 🟠он фильтрует только очевидные zero-variance промпты, но не ранжирует остальные по «полезности», иными словами, не отличает средне-сложные задания от крайне ценных. Это можно доработать, добавив оценку информативности. 🟠алгоритм требует мониторинга. Если целевая доля бесполезных промптов задана неверно, эффективность падает. ▶️ На практике потестить GRESO можно используя набор кода из репозитория проекта на Qwen Math 1.5В или Qwen Math 7b, есть несколько подготовленных скриптов файнтюна в train-scripts. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#RL#GRESO

4,720 views