TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #704 · 17.12

Я всегда был уверен, что системы рекомендаций работают так плохо, потому что это слишком сложная задача. Владельцы площадок бьются с алгоритмами, машинным обучением, деревьями решений и взвешенными суммами, но получается всё равно херня, и человеку могут рекомендовать нерелевантный бред (и, что ещё хуже — не рекомендовать интересный для него контент). Кажется, хорошо работают только рекомендации на Ютубе, но этому есть объяснение: контент на Ютубе более длительный и дорогой. Его сложнее производить, он выходит реже. Качественный ролик на Ютубе не будет говном практически независимо от темы, на которую он снят. А ещё меньшее число объёмных роликов проще кластеризовать и можно предлагать пользователю в небольших количествах. Но если мы откроем YouTube Shorts (это очередной аналог тиктока с короткими вертикальными видео), то заметим, что качество рекомендаций упало сразу на два порядка: какие-то тупые попсовые шутки, "удивительные" факты из жизни, завлекающие отрывки из фильмов "код смотри в телеграм-канале", озвучка анекдотов и прочий мусор. Алгоритмы уже совсем не справляются с тем, чтобы предложить что-то годное, не говоря уже о релевантности конкретно мне, хотя история моих просмотров и вкусов Ютубу, очевидно, известна. Тем не менее, иногда разработчики могут не только не уметь, но и не хотеть писать нормальные рекомендации. Вот ВК предложил мне BadComedian в блоке "Интересные авторы". Оставим в стороне, что Бэдкомендиан это ютубер, и у него в ВК в лучшем случае будут репосты ссылок на Ютуб. Но мне предлагают не паблик, а личную страницу.... на которой не было записей с сентября 2021 года. Нет совершенно никакого смысла быть подписанным на личную страницу Бэдкомедиана сейчас. Кажется, единственный критерий, на котором основывались эти рекомендации: общее число подписчиков. Как должны работать рекомендации на самом деле? Алгоритмически я бы оценивал частоту постов (кстати, чрезмерно частые это тоже плохо, должно работать в минус), оценивал бы, является пост просто публикацией внешней ссылки на другой ресурс, является ли репостом паблика, и смотрел бы, сколько прошло времени с последней записи на странице автора. Наверное, в качестве коэффициента с небольшим весом можно добавить ещё объём контента в посте и активность людей (лайки + комментарии). Причём, делается это достаточно просто, никакой ML не нужен. Даже такая оценка, не берущая в расчёт тематику страницы, всё равно лучше, чем "Просто покажем людей, на которых когда-то подписалось куча народу, и им до сих пор лень отписаться после прекращения активности автора". По крайней мере теперь меня не удивляет, что хвалёные Клипы постоянно подсовывают мне какой-то подростковый шлак вместо крутых видео с полётами на FPV-квадрокоптерах. YouTube Shorts по крайней мере пару раз такие вещи предлагал, а вот Клипы вообще ни разу (станицу Клипов я не открываю, разумеется, но в ленте новостей встречаются блоки с автовоспроизведением). Кстати, на скрине есть второй автор — Стас "Ай как просто". Его банят на Ютубе за критику западной модели текущих событий, и он пишет: "Буду создавать каналы-однодневки, куда деваться". То есть у него даже мысли не возникает, что какая-то ещё площадка может служить его целям. Ну с таким отношением других площадок к рекомендациям — понятно. #web

Hashtags

Резултати

Намерени 19 подобни публикации

Търсене: #rl

当前筛选 #rl清除筛选
Am Neumarkt 😱

@amneumarkt · Post #302 · 11.12.2021 г., 10:19

#ml#rl How to Train your Decision-Making AIs https://thegradient.pub/how-to-train-your-decision-making-ais/ The author reviewed "five types of human guidance to train AIs: evaluation, preference, goals, attention, and demonstrations without action labels". The last one reminds me of the movie Finch. In the movie, Finch was teaching the robot to walk by demonstrating walking but without "labels".

Hashtags

Machinelearning

@ai_machinelearning_big_data · Post #8473 · 08.09.2025 г., 15:28

🦾 Google DeepMind показала, как роботы учатся работать вместе с помощью обучения с подкреплением. Учёные из UCL, Google DeepMind и Intrinsic представили новый AI-алгоритм RoboBallet — систему, которая позволяет нескольким роботизированным манипуляторам работать синхронно и без столкновений в сложной производственной среде,. 🔹 В эксперименте участвовали 8 роботов, каждый из которых мог выполнять 40 разных задач в одном общем пространстве. 🔹 Роботы могли брать любую задачу в любом порядке — система сама решала, кому что поручить и как построить безопасные траектории. 🔹 Алгоритм обучался в симуляции, а затем сразу работал в новых условиях без дообучения (*zero-shot*). Пока решение работает только для задач перемещения (reaching), без учёта порядка выполнения или разных типов роботов. Однако архитектура гибкая — в будущем возможно добавление сложных задач, зависимостей и разнообразных роботов. Один алгоритм смог координировать целую команду, делая роботов гибкими и слаженными даже там, где они раньше не работали. 🟢 Подробнее: https://www.science.org/doi/10.1126/scirobotics.ads1204 @ai_machinelearning_big_data #google#robots#ai#rl

🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*! Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач. В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам 📹 Трансляция Youtube Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех! #семинары#RL

🎓— Семинар 18. Mastering Memory Tasks with World Models | Артём Жолус Завтра на семинаре выступит выпускник нашей магистерской программы МТИИ, ныне аспирант университета Монреаля и научный сотрудник лаборатория MILA (основанной Йошуа Бенджио) Артём Жолус "В этом докладе я представлю Recall2Imagine (R2I), новую модель мира, которая может справиться с любой RL-задачей, требующей большого объема памяти агента (memory-intensive RL task). Эта модель построена на основе комбинации State-Space Models (SSMs), нового типа foundation model, и модели мира DreamerV3. Я покажу, как новая модель может освоить 30+ memory RL сред , включая MemoryMaze - среду, вдохновленную нейронаукой, в которой R2I является первым RL алгоритмом, достигшим сверхчеловеческой награды. Кроме того, я покажу, как память R2I остается устойчивой к различным типам контроля" — Tomorrow, a graduate of our master's program, now a graduate student at the University of Montreal and a researcher at the MILA laboratory (founded by Yoshua Bengio) Artem Zholus will speak at the seminar. "In this talk, I will present Recall2Imagine (R2I), a new world model that can master any memory-intensive RL task out of the box. This model is built upon a combination of State-Space Models (SSMs), a new type of foundation model, and DreamerV3. I will show how a new model can master 30+ memory-intensive environments, including MemoryMaze, which is a neuroscience-inspired environment where R2I is the first algorithm that achieves superhuman performance. In addition, I'll show how R2I's memory remains robust to different types of control and observations in 50+ standard RL environments. The talk covers our paper accepted at ICLR 2024 with oral talk (top-1.2% of accepted papers)." 📹Youtube Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех! — Join the live discussion and ask questions live! Waiting for everyone! #семинары#RL

Data Science Jobs

@datasciencejobs · Post #2700 · 28.04.2025 г., 13:00

#job#middle#senior#RL#ML Вакансия: Data Scientist с опытом RL Формат работы: гибрид, офис в Москве Вилка: от 5000$ до 6000$ Компания: я являюсь рекрутером компании Task Agency Что предлагаем: •Удобный офис в Москве; •Поощрения по результатам работы, привязанные к успеху торговой стратегии; •Гибкая гибридная модель работы, адаптированная к индивидуальным и командным потребностям; •Заработная плата в криптовалюте и тд Что мы ожидаем: •Высшее образование в области количественных финансов, компьютерных наук, математики или статистики. •Опыт в области количественных исследований и применения методов обучения с подкреплением (RL). •Глубокое понимание математического моделирования, статистического анализа и методов оптимизации. •Отличные навыки программирования на Python, а также опыт работы с фреймворками глубокого обучения, такими как TensorFlow, PyTorch, JAX. •Приветствуется опыт работы в трейдинге, маркет-мейкинге или высокочастотной торговле (HFT). •Опыт разработки инструментов для бэктестинга и моделирования будет большим преимуществом. Будет плюсом: •Знание методов оптимизации алгоритмов, таких как эволюционные алгоритмы и байесовские подходы. •Опыт работы с блокчейн-технологиями, смарт-контрактами и торговыми средами DeFi. •Навыки работы в высокопроизводительных вычислительных средах (HPC). Основные задачи: •Разработка торговых моделей для пар ETH/USD+ и cbBTC/USD+ для рынков DeFi. •Внедрение моделей на основе обучения с подкреплением (RL), таких как DQN и AS для маркет-мейкинга. •Проведение бэктестинга и моделирования для оценки стратегий и тд. По всем вопросам @ValeriyaStynke

Data Science Jobs

@datasciencejobs · Post #3051 · 27.11.2025 г., 10:00

#ML#NLP#LLM#RL#remote#huggingface Компания: High Sky; Позиция: Senior LLM-Engineer для решения задачи SWE Вилка: от 8000$ до 15000$; Формат: удаленная работа; Занятость: full-time; Опыт: от 6 лет. Мы - динамично развивающийся стартап, решающий различные задачи AI в соревновательном формате: генерация текста, аудио и видео, обогащение данных, предиктивная аналитика. Мы осуществляем полный цикл работы над продуктом: от анализа бизнес-задачи до вывода в продакшен полноценного решения Находимся в поиске Senior LLM-Engineer для решения задачи SWE Чем предстоит заниматься: - Главная задача - разработать агента для решения SWE задач - обучение LLM - написание кода агента, запускаемого в sandbox - fine-tuning LLM - Построение пайплайнов валидации и оценки моделей и агентов - Сбор, очищение данных - Выбор архитектур и pre-trained моделей - Объединение моделей и адаптеров Требования к кандидату: - Опыт обучения LLM (fine-tuning / pre-training) от 2 лет - Опыт применения различных методов обучения LLM - Опыт с различными pre-trained моделями - Опыт работы с экосистемой huggingface: transformers, datasets, peft, trl - Хорошее понимание теоретической базы NLP, transformers, LLM. Понимание всех циклов предобучения и файнтюнинга, RL, classic ML - Опыт коммерческой разработки с нуля - Опыт работы от 6 лет - Высшее образование в области компьютерных технологий / прикладной математики и (или) прикладной информатики; Будет плюсом: - Опыт решения задачи SWE-bench - Научные исследования по Computer Science - Призовые места в соревнованиях (kaggle, boosters), опыт участия в хакатонах - ШАД / Школа 21 Что мы предлагаем: - Участие в разработке динамично развивающегося продукта, работающего на рынке в реальном времени; - Справедливую заработную плату по результатам собеседования и вашей квалификации; - Возможность прокачивать свою экспертизу за счет работы с топовыми коллегами и обучения в моменте; - Классный молодой коллектив профессионалов, заряженных на результат. Ценим порядочность, честность и открытость; - Горизонтальную структуру, отсутствие бюрократии и синдромов «больших начальников»; - Мы за результат, а не процесс. У всех наших сотрудников удобный график и полностью удаленная работа без привязке к стране. Для отклика пишите@perovvaa📩

Machinelearning

@ai_machinelearning_big_data · Post #9053 · 23.11.2025 г., 07:14

🌟RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena. Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень. Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6. Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок. 🟡Технические детали. Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile. Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели. Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения. 🟡Стабильность. Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP. В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование. 🟡Статья 🖥Github @ai_machinelearning_big_data #AI#ML#RL#Miles#LMSYS

Machinelearning

@ai_machinelearning_big_data · Post #8194 · 02.08.2025 г., 13:04

🌟X-Omni от Tencent: авторегрессионная text-to-image модель с RL. X-Omni - методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень. X-Omni построена на гибридной, но при этом унифицированной архитектуре. Схематично она выглядит так: Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev. 🟡Уникальность метода - в смеси RL по GRPO и комплексной reward-системе. Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR. Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов. Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста. 🟡И это дало свои плоды, особенно в отрисовке текста, где авторегрессионные модели исторически пасовали. На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o. В задачах общей генерации по тексту X-Omni также на высоте. На DPG-Bench модель достигла SOTA-результата 87.65, опередив GPT-4o (86.23) и Show-o2 (86.14). На GenEval результат составил 0.83, чуть-чуть не дотянув до модели Mogao (0.89). Даже в задачах на понимание изображений X-Omni показывает себя достойно: на OCRBench ее результат (704) превосходит другие унифицированные модели, например Emu3 (687). 🟡Интересные подробности. Во-первых, X-Omni не нуждается в CFG. В отличие от Emu3 или Janus-Pro, качество которых резко падает при отключении CFG, X-Omni работает стабильно. Во-вторых, что, пожалуй, самое важное, RL превосходит даже SFT с последующим сэмплингом best-of-N. Этот вывод идет вразрез с устоявшимся мнением в области языкового моделирования и доказывает, что для изображений холистическая оптимизация через RL дает существенный прирост качества. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#T2I#RL#XOmni#Tencent

😊Одна из самых крутых библиотек для RL агентов - это библиотека ml-agents для Unity. Позволяет довольно быстро освоиться с применением RL в играх. На видео представлен уже предобученный агент из библиотеки, которого научили ходить и собирать зеленые кубики. По ссылочкам можно найти все необходимое, но главное - примеры. Среди этих примеров можно посмотреть как учили: машины парковаться, самолеты летать, агентов играть в футбол и много всего. Некоторые из них мы в будущем поразбираем. Имеем из плюсов: ➕ Разработчики уже знакомые с моделированием сред (а это один из ключевых компонентов обучения с подкреплением) могут быстро влиться в тему. ➕ Имеем все плюшки Unity, вроде кросплатформенности, кучи готовых решений, C#. Зрелость самой платформы и огромная аудитория. ➕ Много готовых сред и предобученных агентов. ➕ Есть Python API. ➕ На ютубе и в интернете уже довольно много разборов с описаниями как ее применять. Очень рекомендую эту библиотеку попробовать, если Unity Вам близок. Если в целом имеется опыт программирования и разработки, то разобраться очень легко... Думаю что далее я еще пройдусь по енвам в Unity и может мы поделаем кастомные окружения. И мы точно еще много будем говорить о визуальных библиотеках и как там RL применяют. #rl#unity#AGI_and_RL

Machinelearning

@ai_machinelearning_big_data · Post #8851 · 24.10.2025 г., 22:00

🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы. Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи. Сначала генерируются диалоги: «Сколько букв r в слове strawberry?» и правильные ответы. После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык. Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы. Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу. Nanochat решает задачу двумя способами: — логически, рассуждая пошагово; — через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата. Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные. 📘 Разбор: github.com/karpathy/nanochat/discussions/164 @ai_machinelearning_big_data #AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource

12
ПредишнаСтр. 1 от 2Следваща