Этой ночью выходит Atomic Heart — игра от русских разработчиков студии Mundfish с претензией на высокобюджетный ААА-проект. Первые превью появились, кажется, лет 6 назад, и тогда многих привлёк оригинальный визуальный стиль: Atomic Heart это шутер в эстетике Советского Союза из недалёкого будущего. С одной стороны, есть роботы, ИИ, и люди со сверхспособностями. С другой стороны привычные геометрически минималистичные формы из крашеного железа и глянцевого пластика, которые легко увидеть на каком-нибудь старом складе, заполненном советским оборудованием.
Развитие проекта переживало несколько кризисов. Вообще, любой проект таких масштабов обречён не успевать в сроки: это не умеют делать даже супер опытные крупнейшие западные студии с миллиардными бюджетами. Неудивительно, что Atomic Heart от новичков из России не только побывала в производственном аду с переработками и скандальными увольнениями, но в какой-то период про неё всерьёз ходили слухи, будто бы никакой игры нет и не было никогда, а все материалы это обман.
Стоит ли говорить, что год релиза тоже оказался наиболее неудачным. Успей студия доделать всё в 2021, может, Россия побывала бы в топ-листах ААА-игр. Сейчас же разработчикам пришлось воспользоваться фактом своей регистрации на Кипре и разделить потоки продажи в России и на Западе, сталкиваясь с хейтом с той и другой стороны.
Со стороны Запада начались попытки канселинга за то, что у Mundfish русские корни, и за то, что они не высказали открытой антироссийской позиции. Я уже неоднократно писал, что, например, компания JetBrains, имея русских основателей и больше половины русского штата, заняла публично антироссийскую позицию сразу же, максимально сохраняя свои продажи на Западе. Хотя некоторое количество хейта от украинцев в сторону JetBrains всё равно есть: дескать, полностью ушли из России слишком поздно, закрывали процессы и перевозили людей, а нужно было сразу.
Mundfish не делали политических заявлений вообще. Написали общие вещи, что они против войны, но не стали писать, что они против России и отказываются продавать здесь свою игру. Из-за этого, например, не так сложно встретить англоязычные статьи с призывом саботировать проект полностью.
Впрочем, в России авторы тоже огребли: дело в том, что цифровым издателем выступила VK со своей малоизвестной площадкой для игр VKPlay. Продажи через любимый геймерами Steam были заблокированы не только в России, но и в Казахстане, Армении и других смежных регионах. И, если россиянин, нелегально использующий Steam из-под казахского аккаунта, вряд ли имеет право предъявлять претензии, то вот вполне настоящие жители того же Казахстана по непонятной причине столкнулись с блокировкой, хотя на их страну никто никаких санкций не накладывал. Плюс — чего уж говорить — публичная репутация у VK, мягко говоря, не слишком высокая: десятки комментариев о том, что игру не станут покупать просто чтобы не связываться с каким-либо продуктом от VK.
Не знаю, будет ли Atomic Heart хорошей игрой. На общемировом уровне, мне кажется, будет средненькой. По видеороликам кажется, что импакта от выстрелов нет, а в шутере это почти что самое главное. Способности персонажа тоже выглядят довольно бесполезными. Тем не менее, я купил максимальную версию, чтобы поддержать авторов, которые прошли через и без того сложный процесс разработки, а в конце ещё и столкнулись с неадекватной агрессией, и при этом проявили себя сдержано и достойно. Но на игру, конечно же, тоже посмотрим.
#games
#ml#rl
How to Train your Decision-Making AIs
https://thegradient.pub/how-to-train-your-decision-making-ais/
The author reviewed "five types of human guidance to train AIs: evaluation, preference, goals, attention, and demonstrations without action labels".
The last one reminds me of the movie Finch. In the movie, Finch was teaching the robot to walk by demonstrating walking but without "labels".
🦾 Google DeepMind показала, как роботы учатся работать вместе с помощью обучения с подкреплением.
Учёные из UCL, Google DeepMind и Intrinsic представили новый AI-алгоритм RoboBallet — систему, которая позволяет нескольким роботизированным манипуляторам работать синхронно и без столкновений в сложной производственной среде,.
🔹 В эксперименте участвовали 8 роботов, каждый из которых мог выполнять 40 разных задач в одном общем пространстве.
🔹 Роботы могли брать любую задачу в любом порядке — система сама решала, кому что поручить и как построить безопасные траектории.
🔹 Алгоритм обучался в симуляции, а затем сразу работал в новых условиях без дообучения (*zero-shot*).
Пока решение работает только для задач перемещения (reaching), без учёта порядка выполнения или разных типов роботов.
Однако архитектура гибкая — в будущем возможно добавление сложных задач, зависимостей и разнообразных роботов.
Один алгоритм смог координировать целую команду, делая роботов гибкими и слаженными даже там, где они раньше не работали.
🟢 Подробнее: https://www.science.org/doi/10.1126/scirobotics.ads1204
@ai_machinelearning_big_data
#google#robots#ai#rl
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова
Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!
Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.
В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары#RL
🎓— Семинар 18. Mastering Memory Tasks with World Models | Артём Жолус
Завтра на семинаре выступит выпускник нашей магистерской программы МТИИ, ныне аспирант университета Монреаля и научный сотрудник лаборатория MILA (основанной Йошуа Бенджио) Артём Жолус
"В этом докладе я представлю Recall2Imagine (R2I), новую модель мира, которая может справиться с любой RL-задачей, требующей большого объема памяти агента (memory-intensive RL task). Эта модель построена на основе комбинации State-Space Models (SSMs), нового типа foundation model, и модели мира DreamerV3. Я покажу, как новая модель может освоить 30+ memory RL сред , включая MemoryMaze - среду, вдохновленную нейронаукой, в которой R2I является первым RL алгоритмом, достигшим сверхчеловеческой награды. Кроме того, я покажу, как память R2I остается устойчивой к различным типам контроля"
—
Tomorrow, a graduate of our master's program, now a graduate student at the University of Montreal and a researcher at the MILA laboratory (founded by Yoshua Bengio) Artem Zholus will speak at the seminar.
"In this talk, I will present Recall2Imagine (R2I), a new world model that can master any memory-intensive RL task out of the box. This model is built upon a combination of State-Space Models (SSMs), a new type of foundation model, and DreamerV3. I will show how a new model can master 30+ memory-intensive environments, including MemoryMaze, which is a neuroscience-inspired environment where R2I is the first algorithm that achieves superhuman performance. In addition, I'll show how R2I's memory remains robust to different types of control and observations in 50+ standard RL environments. The talk covers our paper accepted at ICLR 2024 with oral talk (top-1.2% of accepted papers)."
📹Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
—
Join the live discussion and ask questions live! Waiting for everyone!
#семинары#RL
#job#middle#senior#RL#ML
Вакансия: Data Scientist с опытом RL
Формат работы: гибрид, офис в Москве
Вилка: от 5000$ до 6000$
Компания: я являюсь рекрутером компании Task Agency
Что предлагаем:
•Удобный офис в Москве;
•Поощрения по результатам работы, привязанные к успеху торговой стратегии;
•Гибкая гибридная модель работы, адаптированная к индивидуальным и командным потребностям;
•Заработная плата в криптовалюте и тд
Что мы ожидаем:
•Высшее образование в области количественных финансов, компьютерных наук, математики или статистики.
•Опыт в области количественных исследований и применения методов обучения с подкреплением (RL).
•Глубокое понимание математического моделирования, статистического анализа и методов оптимизации.
•Отличные навыки программирования на Python, а также опыт работы с фреймворками глубокого обучения, такими как TensorFlow, PyTorch, JAX.
•Приветствуется опыт работы в трейдинге, маркет-мейкинге или высокочастотной торговле (HFT).
•Опыт разработки инструментов для бэктестинга и моделирования будет большим преимуществом.
Будет плюсом:
•Знание методов оптимизации алгоритмов, таких как эволюционные алгоритмы и байесовские подходы.
•Опыт работы с блокчейн-технологиями, смарт-контрактами и торговыми средами DeFi.
•Навыки работы в высокопроизводительных вычислительных средах (HPC).
Основные задачи:
•Разработка торговых моделей для пар ETH/USD+ и cbBTC/USD+ для рынков DeFi.
•Внедрение моделей на основе обучения с подкреплением (RL), таких как DQN и AS для маркет-мейкинга.
•Проведение бэктестинга и моделирования для оценки стратегий и тд.
По всем вопросам @ValeriyaStynke
#ML#NLP#LLM#RL#remote#huggingface
Компания: High Sky;
Позиция: Senior LLM-Engineer для решения задачи SWE
Вилка: от 8000$ до 15000$;
Формат: удаленная работа;
Занятость: full-time;
Опыт: от 6 лет.
Мы - динамично развивающийся стартап, решающий различные задачи AI в соревновательном формате: генерация текста, аудио и видео, обогащение данных, предиктивная аналитика. Мы осуществляем полный цикл работы над продуктом: от анализа бизнес-задачи до вывода в продакшен полноценного решения
Находимся в поиске Senior LLM-Engineer для решения задачи SWE
Чем предстоит заниматься:
- Главная задача - разработать агента для решения SWE задач
- обучение LLM
- написание кода агента, запускаемого в sandbox
- fine-tuning LLM
- Построение пайплайнов валидации и оценки моделей и агентов
- Сбор, очищение данных
- Выбор архитектур и pre-trained моделей
- Объединение моделей и адаптеров
Требования к кандидату:
- Опыт обучения LLM (fine-tuning / pre-training) от 2 лет
- Опыт применения различных методов обучения LLM
- Опыт с различными pre-trained моделями
- Опыт работы с экосистемой huggingface: transformers, datasets, peft, trl
- Хорошее понимание теоретической базы
NLP, transformers, LLM. Понимание всех циклов предобучения и файнтюнинга, RL, classic ML
- Опыт коммерческой разработки с нуля
- Опыт работы от 6 лет
- Высшее образование в области компьютерных технологий / прикладной математики и (или) прикладной информатики;
Будет плюсом:
- Опыт решения задачи SWE-bench
- Научные исследования по Computer Science
- Призовые места в соревнованиях (kaggle, boosters), опыт участия в хакатонах
- ШАД / Школа 21
Что мы предлагаем:
- Участие в разработке динамично развивающегося продукта, работающего на рынке в реальном времени;
- Справедливую заработную плату по результатам собеседования и вашей квалификации;
- Возможность прокачивать свою экспертизу за счет работы с топовыми коллегами и обучения в моменте;
- Классный молодой коллектив профессионалов, заряженных на результат. Ценим порядочность, честность и открытость;
- Горизонтальную структуру, отсутствие бюрократии и синдромов «больших начальников»;
- Мы за результат, а не процесс. У всех наших сотрудников удобный график и полностью удаленная работа без привязке к стране.
Для отклика пишите@perovvaa📩
🌟RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena.
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
🟡Технические детали.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile.
Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
🟡Стабильность.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
🟡Статья
🖥Github
@ai_machinelearning_big_data
#AI#ML#RL#Miles#LMSYS
🌟X-Omni от Tencent: авторегрессионная text-to-image модель с RL.
X-Omni - методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень.
X-Omni построена на гибридной, но при этом унифицированной архитектуре. Схематично она выглядит так:
Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev.
🟡Уникальность метода - в смеси RL по GRPO и комплексной reward-системе.
Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR.
Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов.
Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста.
🟡И это дало свои плоды, особенно в отрисовке текста, где авторегрессионные модели исторически пасовали.
На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o.
В задачах общей генерации по тексту X-Omni также на высоте. На DPG-Bench модель достигла SOTA-результата 87.65, опередив GPT-4o (86.23) и Show-o2 (86.14). На GenEval результат составил 0.83, чуть-чуть не дотянув до модели Mogao (0.89).
Даже в задачах на понимание изображений X-Omni показывает себя достойно: на OCRBench ее результат (704) превосходит другие унифицированные модели, например Emu3 (687).
🟡Интересные подробности.
Во-первых, X-Omni не нуждается в CFG. В отличие от Emu3 или Janus-Pro, качество которых резко падает при отключении CFG, X-Omni работает стабильно.
Во-вторых, что, пожалуй, самое важное, RL превосходит даже SFT с последующим сэмплингом best-of-N.
Этот вывод идет вразрез с устоявшимся мнением в области языкового моделирования и доказывает, что для изображений холистическая оптимизация через RL дает существенный прирост качества.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#T2I#RL#XOmni#Tencent
😊Одна из самых крутых библиотек для RL агентов - это библиотека ml-agents для Unity.
Позволяет довольно быстро освоиться с применением RL в играх.
На видео представлен уже предобученный агент из библиотеки, которого научили ходить и собирать зеленые кубики.
По ссылочкам можно найти все необходимое, но главное - примеры.
Среди этих примеров можно посмотреть как учили:
машины парковаться,
самолеты летать,
агентов играть в футбол
и много всего. Некоторые из них мы в будущем поразбираем.
Имеем из плюсов:
➕ Разработчики уже знакомые с моделированием сред (а это один из ключевых компонентов обучения с подкреплением) могут быстро влиться в тему.
➕ Имеем все плюшки Unity, вроде кросплатформенности, кучи готовых решений, C#. Зрелость самой платформы и огромная аудитория.
➕ Много готовых сред и предобученных агентов.
➕ Есть Python API.
➕ На ютубе и в интернете уже довольно много разборов с описаниями как ее применять.
Очень рекомендую эту библиотеку попробовать, если Unity Вам близок. Если в целом имеется опыт программирования и разработки, то разобраться очень легко...
Думаю что далее я еще пройдусь по енвам в Unity и может мы поделаем кастомные окружения. И мы точно еще много будем говорить о визуальных библиотеках и как там RL применяют.
#rl#unity#AGI_and_RL
🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы.
Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.
Сначала генерируются диалоги:
«Сколько букв r в слове strawberry?»
и правильные ответы.
После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.
Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.
Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу.
Nanochat решает задачу двумя способами:
— логически, рассуждая пошагово;
— через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.
Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.
📘 Разбор: github.com/karpathy/nanochat/discussions/164
@ai_machinelearning_big_data
#AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource