TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
DevOps avatar

TGINSIGHT CHAT

DevOps

@DevOPSitsec

Технологии

По всем вопросам- @workakkk @itchannels_telegram - 🔥полезные ит-каналы https://t.me/Golang_google - Golang программирование @golangl - golang chat @GolangJobsit - golang channel jobs @golang_jobsgo - jobs РКН: clck.ru/3FmvZA #VRHSZ

Подписчики2.3万Текущее число подписчиков
Постов1,008Проиндексировано постов
Охват7,530Просмотры последних постов
Последние посты

Последние посты

Тег: #rl · 2 постов

当前筛选 #rl清除筛选

Опубликован 20 июн.

🌟GRESO: ускорение RL-обучения языковых моделей умным отбором данных. GRESO - это новый алгоритм для эффективного обучения с подкреплением больших языковых моделей, который сокращает вычислительные затраты на 40–60% без потери качества. Его суть в предварительной фильтрации «бесполезных» промптов, тех, что не дают модели обучаться, еще до дорогостоящей стадии rollout (генерации ответов модели). В основе GRESO — вероятностная модель, предсказывающая, стоит ли прогонять промпт через LLM. Алгоритм анализирует историю вознаграждений (reward dynamics) за прошлые эпохи обучения: если промпт много раз подряд давал идентичные награды на всех сгенерированных ответах (их называют zero-variance), он, скорее всего, бесполезен и сейчас. GRESO не блокирует их жестко, он вычисляет вероятность пропуска , опираясь на число идущих подряд «пустых» прогонов и базовую вероятность «исследования». Это позволяет иногда перепроверять сложные промпты, на тот случай, если вдруг модель «доучилась» и теперь они полезны. Базовая вероятность автоматически настраивается в реальном времени: если доля бесполезных промптов выше целевого значения (например, 25%), GRESO ее снижает, экономя ресурсы; если ниже — повышает, добавляя гибкости. Плюс, алгоритм разделяет промпты на легкие и сложные, применяя к ним разную политику исследования (сложные проверяет чаще, так как они перспективнее для обучения сильной модели). А чтобы не гонять большие батчи ради пары примеров, размер выборки динамически подстраивается под текущие нужды на основе вычисления из недостающих данных, α — текущей доли пустых промптов и запаса надежности. Хотя GRESO и экономит сотни часов на H100, делая RL-тюнинг доступнее, у него есть нюансы: 🟠он фильтрует только очевидные zero-variance промпты, но не ранжирует остальные по «полезности», иными словами, не отличает средне-сложные задания от крайне ценных. Это можно доработать, добавив оценку информативности. 🟠алгоритм требует мониторинга. Если целевая доля бесполезных промптов задана неверно, эффективность падает. ▶️ На практике потестить GRESO можно используя набор кода из репозитория проекта на Qwen Math 1.5В или Qwen Math 7b, есть несколько подготовленных скриптов файнтюна в train-scripts. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#RL#GRESO

4,720 views

Опубликован 16 апр.

🔥 ReZero — маленькая модель, которая никогда не сдаётся 🧠 ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший. 🔁 Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ. Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом. Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы. Обучается с помощью усиленного обучения (RL) — формируя привычку "не сдаваться". 🔜Github 🔜Модель @ai_machinelearning_big_data #LLM#Search#RL#AI#Meta#ReZero#NeverGiveUp#Llama3

2,810 views