TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #406 · 1.07

Хотел сделать большое видео об этом, но пора признаться себе, что у меня никогда не будет на него времени (чтобы сделать качественно и интересно). Поэтому расскажу вам так. Уже второй сезон езжу вот на такой технике: трицикл Can-Am Spyder 2008 года. Решение его купить основывалось на трёх пунктах. 1. Очень давно присматривался и хотел попробовать 2. Никогда не езжу в городе и вообще не использую мотоцикл как транспорт, а только как средство для удовольствия в свободных от пробок местах 3. Катать жену более безопасным образом :) Сразу скажу: техника ровно такая, какой выглядит — очень спорная, очень своеобразная. Центральный недостаток с точки зрения внешнего наблюдателя обычно выглядит так: от мотоцикла ты вроде бы ожидаешь возможности ездить сквозь пробки, а если уж нет, тогда логично взять автомобиль — он комфортнее, может ездить в дождь и снег, везти больше вещей. Это всё правда, я сейчас езжу на автомобиле в том числе, и могу со всей ответственностью заявить, что автомобиль комфортнее и удобнее как способ передвижения. Дело только в том, что мотоцикл это не способ передвижения. Я писал об этом давно, ещё когда ездил на двухколёсной технике. Для перемещения своего тела из точки А в точку Б крайне непрактично использовать транспорт, который наиболее опасен именно в плотном потоке машин, требует специальной одежды и обуви, не позволяет с собой взять много вещей, одинаково плох и в дождь и в жару. Мотоцикл это средство для катания ради кайфа. Ты выбираешь под это время и место. И вот тут трицикл показывает себя хорошо: проходимость в пробках не важна, потому что ты в любом случае не выбрал бы пробки. Вообще, по секрету вам скажу, мотоциклисты не испытывают удовольствия от необходимости протискиваться между рядами. Это довольно стрессово — тебе приходится постоянно следить, чтобы и тебя никто не прижал, и ты никому зеркало не снёс. Рука устаёт от работы сцепления и тормоза. Толкотня, выхлопы, агрессивные взбешённые из-за долгого стояния водители. А если у тебя не компактный городской нейкед, а широкий павер-круизер или Голда, тебе порой вообще лучше занимать в пробке машиноместо и стоять вместе со всеми. В каком-то смысле даже лучше, если у тебя нет выбора "стоять в пробке или пытаться тесниться с опасностью и стрессом для себя". Зато, если ты выезжаешь ранним утром или поздним вечером на кольцевую, ЗСД, в область и в другие подобные места, чтобы прокатиться с ветерком, либо едешь в дальняк — вот здесь у трицикла есть ряд серьёзных преимуществ. Самое главное это безопасность: тебе не страшны ямы, колдобины, рельсы, разметка и скользкая дорога. У тебя нет опасности завалиться на бок, словить вобблинг или боковой ветер. Как следствие, ты можешь ездить, например, в обычной обуви и относительно простой плотной одежде. Поездки в дождь, если уж пришлось, тоже существенно проще. При этом ощущения полностью мотоциклетные — динамика и обзор, чувство скорости и управление — всё как у мото (на эту штуку нужны мотоциклектные права, и вообще по документам это мотоцикл). Ты получаешь такие же эмоции, при этом меньше рискуя: отлично подходит для тех, у кого взаимоотношения с мототехникой это не адреналиновая наркомания, а просто способ приобретать определённые впечатления, недоступные другим способом. Ну и много мелочей сверху: больше вещей с собой везёшь (спереди багажник под крышкой), на пересечённой местности не страшно завалиться на грязи, меньше устаёшь сам (не нужно держать равновесие корпусом), легче ездить вдвоём с кем-то и т.д. Скоро собираюсь в средний дальняк (до этого ездил в маленький), буду вам рассказывать по пути. #moto#hobby

Hashtags

Резултати

Намерени 19 подобни публикации

Търсене: #rl

当前筛选 #rl清除筛选
Am Neumarkt 😱

@amneumarkt · Post #302 · 11.12.2021 г., 10:19

#ml#rl How to Train your Decision-Making AIs https://thegradient.pub/how-to-train-your-decision-making-ais/ The author reviewed "five types of human guidance to train AIs: evaluation, preference, goals, attention, and demonstrations without action labels". The last one reminds me of the movie Finch. In the movie, Finch was teaching the robot to walk by demonstrating walking but without "labels".

Hashtags

Machinelearning

@ai_machinelearning_big_data · Post #8473 · 08.09.2025 г., 15:28

🦾 Google DeepMind показала, как роботы учатся работать вместе с помощью обучения с подкреплением. Учёные из UCL, Google DeepMind и Intrinsic представили новый AI-алгоритм RoboBallet — систему, которая позволяет нескольким роботизированным манипуляторам работать синхронно и без столкновений в сложной производственной среде,. 🔹 В эксперименте участвовали 8 роботов, каждый из которых мог выполнять 40 разных задач в одном общем пространстве. 🔹 Роботы могли брать любую задачу в любом порядке — система сама решала, кому что поручить и как построить безопасные траектории. 🔹 Алгоритм обучался в симуляции, а затем сразу работал в новых условиях без дообучения (*zero-shot*). Пока решение работает только для задач перемещения (reaching), без учёта порядка выполнения или разных типов роботов. Однако архитектура гибкая — в будущем возможно добавление сложных задач, зависимостей и разнообразных роботов. Один алгоритм смог координировать целую команду, делая роботов гибкими и слаженными даже там, где они раньше не работали. 🟢 Подробнее: https://www.science.org/doi/10.1126/scirobotics.ads1204 @ai_machinelearning_big_data #google#robots#ai#rl

🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*! Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач. В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам 📹 Трансляция Youtube Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех! #семинары#RL

🎓— Семинар 18. Mastering Memory Tasks with World Models | Артём Жолус Завтра на семинаре выступит выпускник нашей магистерской программы МТИИ, ныне аспирант университета Монреаля и научный сотрудник лаборатория MILA (основанной Йошуа Бенджио) Артём Жолус "В этом докладе я представлю Recall2Imagine (R2I), новую модель мира, которая может справиться с любой RL-задачей, требующей большого объема памяти агента (memory-intensive RL task). Эта модель построена на основе комбинации State-Space Models (SSMs), нового типа foundation model, и модели мира DreamerV3. Я покажу, как новая модель может освоить 30+ memory RL сред , включая MemoryMaze - среду, вдохновленную нейронаукой, в которой R2I является первым RL алгоритмом, достигшим сверхчеловеческой награды. Кроме того, я покажу, как память R2I остается устойчивой к различным типам контроля" — Tomorrow, a graduate of our master's program, now a graduate student at the University of Montreal and a researcher at the MILA laboratory (founded by Yoshua Bengio) Artem Zholus will speak at the seminar. "In this talk, I will present Recall2Imagine (R2I), a new world model that can master any memory-intensive RL task out of the box. This model is built upon a combination of State-Space Models (SSMs), a new type of foundation model, and DreamerV3. I will show how a new model can master 30+ memory-intensive environments, including MemoryMaze, which is a neuroscience-inspired environment where R2I is the first algorithm that achieves superhuman performance. In addition, I'll show how R2I's memory remains robust to different types of control and observations in 50+ standard RL environments. The talk covers our paper accepted at ICLR 2024 with oral talk (top-1.2% of accepted papers)." 📹Youtube Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех! — Join the live discussion and ask questions live! Waiting for everyone! #семинары#RL

Data Science Jobs

@datasciencejobs · Post #2700 · 28.04.2025 г., 13:00

#job#middle#senior#RL#ML Вакансия: Data Scientist с опытом RL Формат работы: гибрид, офис в Москве Вилка: от 5000$ до 6000$ Компания: я являюсь рекрутером компании Task Agency Что предлагаем: •Удобный офис в Москве; •Поощрения по результатам работы, привязанные к успеху торговой стратегии; •Гибкая гибридная модель работы, адаптированная к индивидуальным и командным потребностям; •Заработная плата в криптовалюте и тд Что мы ожидаем: •Высшее образование в области количественных финансов, компьютерных наук, математики или статистики. •Опыт в области количественных исследований и применения методов обучения с подкреплением (RL). •Глубокое понимание математического моделирования, статистического анализа и методов оптимизации. •Отличные навыки программирования на Python, а также опыт работы с фреймворками глубокого обучения, такими как TensorFlow, PyTorch, JAX. •Приветствуется опыт работы в трейдинге, маркет-мейкинге или высокочастотной торговле (HFT). •Опыт разработки инструментов для бэктестинга и моделирования будет большим преимуществом. Будет плюсом: •Знание методов оптимизации алгоритмов, таких как эволюционные алгоритмы и байесовские подходы. •Опыт работы с блокчейн-технологиями, смарт-контрактами и торговыми средами DeFi. •Навыки работы в высокопроизводительных вычислительных средах (HPC). Основные задачи: •Разработка торговых моделей для пар ETH/USD+ и cbBTC/USD+ для рынков DeFi. •Внедрение моделей на основе обучения с подкреплением (RL), таких как DQN и AS для маркет-мейкинга. •Проведение бэктестинга и моделирования для оценки стратегий и тд. По всем вопросам @ValeriyaStynke

Data Science Jobs

@datasciencejobs · Post #3051 · 27.11.2025 г., 10:00

#ML#NLP#LLM#RL#remote#huggingface Компания: High Sky; Позиция: Senior LLM-Engineer для решения задачи SWE Вилка: от 8000$ до 15000$; Формат: удаленная работа; Занятость: full-time; Опыт: от 6 лет. Мы - динамично развивающийся стартап, решающий различные задачи AI в соревновательном формате: генерация текста, аудио и видео, обогащение данных, предиктивная аналитика. Мы осуществляем полный цикл работы над продуктом: от анализа бизнес-задачи до вывода в продакшен полноценного решения Находимся в поиске Senior LLM-Engineer для решения задачи SWE Чем предстоит заниматься: - Главная задача - разработать агента для решения SWE задач - обучение LLM - написание кода агента, запускаемого в sandbox - fine-tuning LLM - Построение пайплайнов валидации и оценки моделей и агентов - Сбор, очищение данных - Выбор архитектур и pre-trained моделей - Объединение моделей и адаптеров Требования к кандидату: - Опыт обучения LLM (fine-tuning / pre-training) от 2 лет - Опыт применения различных методов обучения LLM - Опыт с различными pre-trained моделями - Опыт работы с экосистемой huggingface: transformers, datasets, peft, trl - Хорошее понимание теоретической базы NLP, transformers, LLM. Понимание всех циклов предобучения и файнтюнинга, RL, classic ML - Опыт коммерческой разработки с нуля - Опыт работы от 6 лет - Высшее образование в области компьютерных технологий / прикладной математики и (или) прикладной информатики; Будет плюсом: - Опыт решения задачи SWE-bench - Научные исследования по Computer Science - Призовые места в соревнованиях (kaggle, boosters), опыт участия в хакатонах - ШАД / Школа 21 Что мы предлагаем: - Участие в разработке динамично развивающегося продукта, работающего на рынке в реальном времени; - Справедливую заработную плату по результатам собеседования и вашей квалификации; - Возможность прокачивать свою экспертизу за счет работы с топовыми коллегами и обучения в моменте; - Классный молодой коллектив профессионалов, заряженных на результат. Ценим порядочность, честность и открытость; - Горизонтальную структуру, отсутствие бюрократии и синдромов «больших начальников»; - Мы за результат, а не процесс. У всех наших сотрудников удобный график и полностью удаленная работа без привязке к стране. Для отклика пишите@perovvaa📩

Machinelearning

@ai_machinelearning_big_data · Post #9053 · 23.11.2025 г., 07:14

🌟RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena. Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень. Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6. Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок. 🟡Технические детали. Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile. Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели. Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения. 🟡Стабильность. Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP. В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование. 🟡Статья 🖥Github @ai_machinelearning_big_data #AI#ML#RL#Miles#LMSYS

Machinelearning

@ai_machinelearning_big_data · Post #8194 · 02.08.2025 г., 13:04

🌟X-Omni от Tencent: авторегрессионная text-to-image модель с RL. X-Omni - методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень. X-Omni построена на гибридной, но при этом унифицированной архитектуре. Схематично она выглядит так: Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev. 🟡Уникальность метода - в смеси RL по GRPO и комплексной reward-системе. Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR. Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов. Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста. 🟡И это дало свои плоды, особенно в отрисовке текста, где авторегрессионные модели исторически пасовали. На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o. В задачах общей генерации по тексту X-Omni также на высоте. На DPG-Bench модель достигла SOTA-результата 87.65, опередив GPT-4o (86.23) и Show-o2 (86.14). На GenEval результат составил 0.83, чуть-чуть не дотянув до модели Mogao (0.89). Даже в задачах на понимание изображений X-Omni показывает себя достойно: на OCRBench ее результат (704) превосходит другие унифицированные модели, например Emu3 (687). 🟡Интересные подробности. Во-первых, X-Omni не нуждается в CFG. В отличие от Emu3 или Janus-Pro, качество которых резко падает при отключении CFG, X-Omni работает стабильно. Во-вторых, что, пожалуй, самое важное, RL превосходит даже SFT с последующим сэмплингом best-of-N. Этот вывод идет вразрез с устоявшимся мнением в области языкового моделирования и доказывает, что для изображений холистическая оптимизация через RL дает существенный прирост качества. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#T2I#RL#XOmni#Tencent

😊Одна из самых крутых библиотек для RL агентов - это библиотека ml-agents для Unity. Позволяет довольно быстро освоиться с применением RL в играх. На видео представлен уже предобученный агент из библиотеки, которого научили ходить и собирать зеленые кубики. По ссылочкам можно найти все необходимое, но главное - примеры. Среди этих примеров можно посмотреть как учили: машины парковаться, самолеты летать, агентов играть в футбол и много всего. Некоторые из них мы в будущем поразбираем. Имеем из плюсов: ➕ Разработчики уже знакомые с моделированием сред (а это один из ключевых компонентов обучения с подкреплением) могут быстро влиться в тему. ➕ Имеем все плюшки Unity, вроде кросплатформенности, кучи готовых решений, C#. Зрелость самой платформы и огромная аудитория. ➕ Много готовых сред и предобученных агентов. ➕ Есть Python API. ➕ На ютубе и в интернете уже довольно много разборов с описаниями как ее применять. Очень рекомендую эту библиотеку попробовать, если Unity Вам близок. Если в целом имеется опыт программирования и разработки, то разобраться очень легко... Думаю что далее я еще пройдусь по енвам в Unity и может мы поделаем кастомные окружения. И мы точно еще много будем говорить о визуальных библиотеках и как там RL применяют. #rl#unity#AGI_and_RL

Machinelearning

@ai_machinelearning_big_data · Post #8851 · 24.10.2025 г., 22:00

🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы. Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи. Сначала генерируются диалоги: «Сколько букв r в слове strawberry?» и правильные ответы. После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык. Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы. Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу. Nanochat решает задачу двумя способами: — логически, рассуждая пошагово; — через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата. Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные. 📘 Разбор: github.com/karpathy/nanochat/discussions/164 @ai_machinelearning_big_data #AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource

12
ПредишнаСтр. 1 от 2Следваща