В 2023 году мы с коллегой сделали доклад на DotNext по DDD и архитектуре систем. И там, в числе прочего, показали, что устройство сложного проекта, спроектированного по определённым правилам, может иметь фрактальную структуру. Но мысль эту особо не развивали.
В 2024 году Влад Хононов — автор одной из самых известных книг по DDD — сделал доклад на DotNext по теме «Фрактальная геометрия в проектировании систем». Разумеется, он никаким образом на нашу идею не опирался, а работал над своей системой уже несколько лет к моменту доклада. У него там прям интересные научные обоснования, более серьёзный теоретический фундамент с введением новых понятий и принципов. Но факт близости хода мысли приятен. Типа, мы с коллегой делали систему, которая показала те же свойства, что и системы крутого эксперта в архитектуре.
Прям рекомендую доклад по второй ссылке всем, кто работает в компаниях, где по какому-то странному недосмотру есть архитектура, борьба с техдолгом и попытки не допустить превращения кода в лапшу с высоким зацеплением.
#dev@clockstackwheels
#ml#rl
How to Train your Decision-Making AIs
https://thegradient.pub/how-to-train-your-decision-making-ais/
The author reviewed "five types of human guidance to train AIs: evaluation, preference, goals, attention, and demonstrations without action labels".
The last one reminds me of the movie Finch. In the movie, Finch was teaching the robot to walk by demonstrating walking but without "labels".
🦾 Google DeepMind показала, как роботы учатся работать вместе с помощью обучения с подкреплением.
Учёные из UCL, Google DeepMind и Intrinsic представили новый AI-алгоритм RoboBallet — систему, которая позволяет нескольким роботизированным манипуляторам работать синхронно и без столкновений в сложной производственной среде,.
🔹 В эксперименте участвовали 8 роботов, каждый из которых мог выполнять 40 разных задач в одном общем пространстве.
🔹 Роботы могли брать любую задачу в любом порядке — система сама решала, кому что поручить и как построить безопасные траектории.
🔹 Алгоритм обучался в симуляции, а затем сразу работал в новых условиях без дообучения (*zero-shot*).
Пока решение работает только для задач перемещения (reaching), без учёта порядка выполнения или разных типов роботов.
Однако архитектура гибкая — в будущем возможно добавление сложных задач, зависимостей и разнообразных роботов.
Один алгоритм смог координировать целую команду, делая роботов гибкими и слаженными даже там, где они раньше не работали.
🟢 Подробнее: https://www.science.org/doi/10.1126/scirobotics.ads1204
@ai_machinelearning_big_data
#google#robots#ai#rl
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова
Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!
Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.
В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары#RL
🎓— Семинар 18. Mastering Memory Tasks with World Models | Артём Жолус
Завтра на семинаре выступит выпускник нашей магистерской программы МТИИ, ныне аспирант университета Монреаля и научный сотрудник лаборатория MILA (основанной Йошуа Бенджио) Артём Жолус
"В этом докладе я представлю Recall2Imagine (R2I), новую модель мира, которая может справиться с любой RL-задачей, требующей большого объема памяти агента (memory-intensive RL task). Эта модель построена на основе комбинации State-Space Models (SSMs), нового типа foundation model, и модели мира DreamerV3. Я покажу, как новая модель может освоить 30+ memory RL сред , включая MemoryMaze - среду, вдохновленную нейронаукой, в которой R2I является первым RL алгоритмом, достигшим сверхчеловеческой награды. Кроме того, я покажу, как память R2I остается устойчивой к различным типам контроля"
—
Tomorrow, a graduate of our master's program, now a graduate student at the University of Montreal and a researcher at the MILA laboratory (founded by Yoshua Bengio) Artem Zholus will speak at the seminar.
"In this talk, I will present Recall2Imagine (R2I), a new world model that can master any memory-intensive RL task out of the box. This model is built upon a combination of State-Space Models (SSMs), a new type of foundation model, and DreamerV3. I will show how a new model can master 30+ memory-intensive environments, including MemoryMaze, which is a neuroscience-inspired environment where R2I is the first algorithm that achieves superhuman performance. In addition, I'll show how R2I's memory remains robust to different types of control and observations in 50+ standard RL environments. The talk covers our paper accepted at ICLR 2024 with oral talk (top-1.2% of accepted papers)."
📹Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
—
Join the live discussion and ask questions live! Waiting for everyone!
#семинары#RL
#job#middle#senior#RL#ML
Вакансия: Data Scientist с опытом RL
Формат работы: гибрид, офис в Москве
Вилка: от 5000$ до 6000$
Компания: я являюсь рекрутером компании Task Agency
Что предлагаем:
•Удобный офис в Москве;
•Поощрения по результатам работы, привязанные к успеху торговой стратегии;
•Гибкая гибридная модель работы, адаптированная к индивидуальным и командным потребностям;
•Заработная плата в криптовалюте и тд
Что мы ожидаем:
•Высшее образование в области количественных финансов, компьютерных наук, математики или статистики.
•Опыт в области количественных исследований и применения методов обучения с подкреплением (RL).
•Глубокое понимание математического моделирования, статистического анализа и методов оптимизации.
•Отличные навыки программирования на Python, а также опыт работы с фреймворками глубокого обучения, такими как TensorFlow, PyTorch, JAX.
•Приветствуется опыт работы в трейдинге, маркет-мейкинге или высокочастотной торговле (HFT).
•Опыт разработки инструментов для бэктестинга и моделирования будет большим преимуществом.
Будет плюсом:
•Знание методов оптимизации алгоритмов, таких как эволюционные алгоритмы и байесовские подходы.
•Опыт работы с блокчейн-технологиями, смарт-контрактами и торговыми средами DeFi.
•Навыки работы в высокопроизводительных вычислительных средах (HPC).
Основные задачи:
•Разработка торговых моделей для пар ETH/USD+ и cbBTC/USD+ для рынков DeFi.
•Внедрение моделей на основе обучения с подкреплением (RL), таких как DQN и AS для маркет-мейкинга.
•Проведение бэктестинга и моделирования для оценки стратегий и тд.
По всем вопросам @ValeriyaStynke
#ML#NLP#LLM#RL#remote#huggingface
Компания: High Sky;
Позиция: Senior LLM-Engineer для решения задачи SWE
Вилка: от 8000$ до 15000$;
Формат: удаленная работа;
Занятость: full-time;
Опыт: от 6 лет.
Мы - динамично развивающийся стартап, решающий различные задачи AI в соревновательном формате: генерация текста, аудио и видео, обогащение данных, предиктивная аналитика. Мы осуществляем полный цикл работы над продуктом: от анализа бизнес-задачи до вывода в продакшен полноценного решения
Находимся в поиске Senior LLM-Engineer для решения задачи SWE
Чем предстоит заниматься:
- Главная задача - разработать агента для решения SWE задач
- обучение LLM
- написание кода агента, запускаемого в sandbox
- fine-tuning LLM
- Построение пайплайнов валидации и оценки моделей и агентов
- Сбор, очищение данных
- Выбор архитектур и pre-trained моделей
- Объединение моделей и адаптеров
Требования к кандидату:
- Опыт обучения LLM (fine-tuning / pre-training) от 2 лет
- Опыт применения различных методов обучения LLM
- Опыт с различными pre-trained моделями
- Опыт работы с экосистемой huggingface: transformers, datasets, peft, trl
- Хорошее понимание теоретической базы
NLP, transformers, LLM. Понимание всех циклов предобучения и файнтюнинга, RL, classic ML
- Опыт коммерческой разработки с нуля
- Опыт работы от 6 лет
- Высшее образование в области компьютерных технологий / прикладной математики и (или) прикладной информатики;
Будет плюсом:
- Опыт решения задачи SWE-bench
- Научные исследования по Computer Science
- Призовые места в соревнованиях (kaggle, boosters), опыт участия в хакатонах
- ШАД / Школа 21
Что мы предлагаем:
- Участие в разработке динамично развивающегося продукта, работающего на рынке в реальном времени;
- Справедливую заработную плату по результатам собеседования и вашей квалификации;
- Возможность прокачивать свою экспертизу за счет работы с топовыми коллегами и обучения в моменте;
- Классный молодой коллектив профессионалов, заряженных на результат. Ценим порядочность, честность и открытость;
- Горизонтальную структуру, отсутствие бюрократии и синдромов «больших начальников»;
- Мы за результат, а не процесс. У всех наших сотрудников удобный график и полностью удаленная работа без привязке к стране.
Для отклика пишите@perovvaa📩
🌟RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena.
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
🟡Технические детали.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile.
Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
🟡Стабильность.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
🟡Статья
🖥Github
@ai_machinelearning_big_data
#AI#ML#RL#Miles#LMSYS
🌟X-Omni от Tencent: авторегрессионная text-to-image модель с RL.
X-Omni - методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень.
X-Omni построена на гибридной, но при этом унифицированной архитектуре. Схематично она выглядит так:
Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev.
🟡Уникальность метода - в смеси RL по GRPO и комплексной reward-системе.
Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR.
Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов.
Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста.
🟡И это дало свои плоды, особенно в отрисовке текста, где авторегрессионные модели исторически пасовали.
На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o.
В задачах общей генерации по тексту X-Omni также на высоте. На DPG-Bench модель достигла SOTA-результата 87.65, опередив GPT-4o (86.23) и Show-o2 (86.14). На GenEval результат составил 0.83, чуть-чуть не дотянув до модели Mogao (0.89).
Даже в задачах на понимание изображений X-Omni показывает себя достойно: на OCRBench ее результат (704) превосходит другие унифицированные модели, например Emu3 (687).
🟡Интересные подробности.
Во-первых, X-Omni не нуждается в CFG. В отличие от Emu3 или Janus-Pro, качество которых резко падает при отключении CFG, X-Omni работает стабильно.
Во-вторых, что, пожалуй, самое важное, RL превосходит даже SFT с последующим сэмплингом best-of-N.
Этот вывод идет вразрез с устоявшимся мнением в области языкового моделирования и доказывает, что для изображений холистическая оптимизация через RL дает существенный прирост качества.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#T2I#RL#XOmni#Tencent
😊Одна из самых крутых библиотек для RL агентов - это библиотека ml-agents для Unity.
Позволяет довольно быстро освоиться с применением RL в играх.
На видео представлен уже предобученный агент из библиотеки, которого научили ходить и собирать зеленые кубики.
По ссылочкам можно найти все необходимое, но главное - примеры.
Среди этих примеров можно посмотреть как учили:
машины парковаться,
самолеты летать,
агентов играть в футбол
и много всего. Некоторые из них мы в будущем поразбираем.
Имеем из плюсов:
➕ Разработчики уже знакомые с моделированием сред (а это один из ключевых компонентов обучения с подкреплением) могут быстро влиться в тему.
➕ Имеем все плюшки Unity, вроде кросплатформенности, кучи готовых решений, C#. Зрелость самой платформы и огромная аудитория.
➕ Много готовых сред и предобученных агентов.
➕ Есть Python API.
➕ На ютубе и в интернете уже довольно много разборов с описаниями как ее применять.
Очень рекомендую эту библиотеку попробовать, если Unity Вам близок. Если в целом имеется опыт программирования и разработки, то разобраться очень легко...
Думаю что далее я еще пройдусь по енвам в Unity и может мы поделаем кастомные окружения. И мы точно еще много будем говорить о визуальных библиотеках и как там RL применяют.
#rl#unity#AGI_and_RL
🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы.
Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.
Сначала генерируются диалоги:
«Сколько букв r в слове strawberry?»
и правильные ответы.
После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.
Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.
Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу.
Nanochat решает задачу двумя способами:
— логически, рассуждая пошагово;
— через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.
Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.
📘 Разбор: github.com/karpathy/nanochat/discussions/164
@ai_machinelearning_big_data
#AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource