#c_lang#ctp#ctpapi#futures#options#quant#simnow#stock#tora#trader#tts#xtp
openctp is a powerful open-source trading platform compatible with many Chinese securities and futures trading systems, offering both real and simulated trading environments for futures, options, stocks, funds, and bonds across domestic and global markets like A-shares, Hong Kong, and US stocks. It provides easy access to CTPAPI through Python and other programming languages, plus user-friendly trading clients with graphical and command-line interfaces. You can register free simulation accounts instantly via WeChat, enabling you to practice and test trading strategies in real-time or 24/7 environments. It also offers training, development support, and a monitoring platform for multiple trading systems, helping you learn, develop, and trade efficiently with low costs and broad market access. This benefits you by giving a flexible, comprehensive, and cost-effective way to develop, test, and execute trading strategies across many markets with strong community and technical support.
https://github.com/openctp/openctp
#ml#rl
How to Train your Decision-Making AIs
https://thegradient.pub/how-to-train-your-decision-making-ais/
The author reviewed "five types of human guidance to train AIs: evaluation, preference, goals, attention, and demonstrations without action labels".
The last one reminds me of the movie Finch. In the movie, Finch was teaching the robot to walk by demonstrating walking but without "labels".
🦾 Google DeepMind показала, как роботы учатся работать вместе с помощью обучения с подкреплением.
Учёные из UCL, Google DeepMind и Intrinsic представили новый AI-алгоритм RoboBallet — систему, которая позволяет нескольким роботизированным манипуляторам работать синхронно и без столкновений в сложной производственной среде,.
🔹 В эксперименте участвовали 8 роботов, каждый из которых мог выполнять 40 разных задач в одном общем пространстве.
🔹 Роботы могли брать любую задачу в любом порядке — система сама решала, кому что поручить и как построить безопасные траектории.
🔹 Алгоритм обучался в симуляции, а затем сразу работал в новых условиях без дообучения (*zero-shot*).
Пока решение работает только для задач перемещения (reaching), без учёта порядка выполнения или разных типов роботов.
Однако архитектура гибкая — в будущем возможно добавление сложных задач, зависимостей и разнообразных роботов.
Один алгоритм смог координировать целую команду, делая роботов гибкими и слаженными даже там, где они раньше не работали.
🟢 Подробнее: https://www.science.org/doi/10.1126/scirobotics.ads1204
@ai_machinelearning_big_data
#google#robots#ai#rl
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова
Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!
Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.
В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары#RL
🎓— Семинар 18. Mastering Memory Tasks with World Models | Артём Жолус
Завтра на семинаре выступит выпускник нашей магистерской программы МТИИ, ныне аспирант университета Монреаля и научный сотрудник лаборатория MILA (основанной Йошуа Бенджио) Артём Жолус
"В этом докладе я представлю Recall2Imagine (R2I), новую модель мира, которая может справиться с любой RL-задачей, требующей большого объема памяти агента (memory-intensive RL task). Эта модель построена на основе комбинации State-Space Models (SSMs), нового типа foundation model, и модели мира DreamerV3. Я покажу, как новая модель может освоить 30+ memory RL сред , включая MemoryMaze - среду, вдохновленную нейронаукой, в которой R2I является первым RL алгоритмом, достигшим сверхчеловеческой награды. Кроме того, я покажу, как память R2I остается устойчивой к различным типам контроля"
—
Tomorrow, a graduate of our master's program, now a graduate student at the University of Montreal and a researcher at the MILA laboratory (founded by Yoshua Bengio) Artem Zholus will speak at the seminar.
"In this talk, I will present Recall2Imagine (R2I), a new world model that can master any memory-intensive RL task out of the box. This model is built upon a combination of State-Space Models (SSMs), a new type of foundation model, and DreamerV3. I will show how a new model can master 30+ memory-intensive environments, including MemoryMaze, which is a neuroscience-inspired environment where R2I is the first algorithm that achieves superhuman performance. In addition, I'll show how R2I's memory remains robust to different types of control and observations in 50+ standard RL environments. The talk covers our paper accepted at ICLR 2024 with oral talk (top-1.2% of accepted papers)."
📹Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
—
Join the live discussion and ask questions live! Waiting for everyone!
#семинары#RL
#job#middle#senior#RL#ML
Вакансия: Data Scientist с опытом RL
Формат работы: гибрид, офис в Москве
Вилка: от 5000$ до 6000$
Компания: я являюсь рекрутером компании Task Agency
Что предлагаем:
•Удобный офис в Москве;
•Поощрения по результатам работы, привязанные к успеху торговой стратегии;
•Гибкая гибридная модель работы, адаптированная к индивидуальным и командным потребностям;
•Заработная плата в криптовалюте и тд
Что мы ожидаем:
•Высшее образование в области количественных финансов, компьютерных наук, математики или статистики.
•Опыт в области количественных исследований и применения методов обучения с подкреплением (RL).
•Глубокое понимание математического моделирования, статистического анализа и методов оптимизации.
•Отличные навыки программирования на Python, а также опыт работы с фреймворками глубокого обучения, такими как TensorFlow, PyTorch, JAX.
•Приветствуется опыт работы в трейдинге, маркет-мейкинге или высокочастотной торговле (HFT).
•Опыт разработки инструментов для бэктестинга и моделирования будет большим преимуществом.
Будет плюсом:
•Знание методов оптимизации алгоритмов, таких как эволюционные алгоритмы и байесовские подходы.
•Опыт работы с блокчейн-технологиями, смарт-контрактами и торговыми средами DeFi.
•Навыки работы в высокопроизводительных вычислительных средах (HPC).
Основные задачи:
•Разработка торговых моделей для пар ETH/USD+ и cbBTC/USD+ для рынков DeFi.
•Внедрение моделей на основе обучения с подкреплением (RL), таких как DQN и AS для маркет-мейкинга.
•Проведение бэктестинга и моделирования для оценки стратегий и тд.
По всем вопросам @ValeriyaStynke
#ML#NLP#LLM#RL#remote#huggingface
Компания: High Sky;
Позиция: Senior LLM-Engineer для решения задачи SWE
Вилка: от 8000$ до 15000$;
Формат: удаленная работа;
Занятость: full-time;
Опыт: от 6 лет.
Мы - динамично развивающийся стартап, решающий различные задачи AI в соревновательном формате: генерация текста, аудио и видео, обогащение данных, предиктивная аналитика. Мы осуществляем полный цикл работы над продуктом: от анализа бизнес-задачи до вывода в продакшен полноценного решения
Находимся в поиске Senior LLM-Engineer для решения задачи SWE
Чем предстоит заниматься:
- Главная задача - разработать агента для решения SWE задач
- обучение LLM
- написание кода агента, запускаемого в sandbox
- fine-tuning LLM
- Построение пайплайнов валидации и оценки моделей и агентов
- Сбор, очищение данных
- Выбор архитектур и pre-trained моделей
- Объединение моделей и адаптеров
Требования к кандидату:
- Опыт обучения LLM (fine-tuning / pre-training) от 2 лет
- Опыт применения различных методов обучения LLM
- Опыт с различными pre-trained моделями
- Опыт работы с экосистемой huggingface: transformers, datasets, peft, trl
- Хорошее понимание теоретической базы
NLP, transformers, LLM. Понимание всех циклов предобучения и файнтюнинга, RL, classic ML
- Опыт коммерческой разработки с нуля
- Опыт работы от 6 лет
- Высшее образование в области компьютерных технологий / прикладной математики и (или) прикладной информатики;
Будет плюсом:
- Опыт решения задачи SWE-bench
- Научные исследования по Computer Science
- Призовые места в соревнованиях (kaggle, boosters), опыт участия в хакатонах
- ШАД / Школа 21
Что мы предлагаем:
- Участие в разработке динамично развивающегося продукта, работающего на рынке в реальном времени;
- Справедливую заработную плату по результатам собеседования и вашей квалификации;
- Возможность прокачивать свою экспертизу за счет работы с топовыми коллегами и обучения в моменте;
- Классный молодой коллектив профессионалов, заряженных на результат. Ценим порядочность, честность и открытость;
- Горизонтальную структуру, отсутствие бюрократии и синдромов «больших начальников»;
- Мы за результат, а не процесс. У всех наших сотрудников удобный график и полностью удаленная работа без привязке к стране.
Для отклика пишите@perovvaa📩
🌟RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena.
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
🟡Технические детали.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile.
Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
🟡Стабильность.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
🟡Статья
🖥Github
@ai_machinelearning_big_data
#AI#ML#RL#Miles#LMSYS
🌟X-Omni от Tencent: авторегрессионная text-to-image модель с RL.
X-Omni - методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень.
X-Omni построена на гибридной, но при этом унифицированной архитектуре. Схематично она выглядит так:
Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev.
🟡Уникальность метода - в смеси RL по GRPO и комплексной reward-системе.
Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR.
Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов.
Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста.
🟡И это дало свои плоды, особенно в отрисовке текста, где авторегрессионные модели исторически пасовали.
На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o.
В задачах общей генерации по тексту X-Omni также на высоте. На DPG-Bench модель достигла SOTA-результата 87.65, опередив GPT-4o (86.23) и Show-o2 (86.14). На GenEval результат составил 0.83, чуть-чуть не дотянув до модели Mogao (0.89).
Даже в задачах на понимание изображений X-Omni показывает себя достойно: на OCRBench ее результат (704) превосходит другие унифицированные модели, например Emu3 (687).
🟡Интересные подробности.
Во-первых, X-Omni не нуждается в CFG. В отличие от Emu3 или Janus-Pro, качество которых резко падает при отключении CFG, X-Omni работает стабильно.
Во-вторых, что, пожалуй, самое важное, RL превосходит даже SFT с последующим сэмплингом best-of-N.
Этот вывод идет вразрез с устоявшимся мнением в области языкового моделирования и доказывает, что для изображений холистическая оптимизация через RL дает существенный прирост качества.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#T2I#RL#XOmni#Tencent
😊Одна из самых крутых библиотек для RL агентов - это библиотека ml-agents для Unity.
Позволяет довольно быстро освоиться с применением RL в играх.
На видео представлен уже предобученный агент из библиотеки, которого научили ходить и собирать зеленые кубики.
По ссылочкам можно найти все необходимое, но главное - примеры.
Среди этих примеров можно посмотреть как учили:
машины парковаться,
самолеты летать,
агентов играть в футбол
и много всего. Некоторые из них мы в будущем поразбираем.
Имеем из плюсов:
➕ Разработчики уже знакомые с моделированием сред (а это один из ключевых компонентов обучения с подкреплением) могут быстро влиться в тему.
➕ Имеем все плюшки Unity, вроде кросплатформенности, кучи готовых решений, C#. Зрелость самой платформы и огромная аудитория.
➕ Много готовых сред и предобученных агентов.
➕ Есть Python API.
➕ На ютубе и в интернете уже довольно много разборов с описаниями как ее применять.
Очень рекомендую эту библиотеку попробовать, если Unity Вам близок. Если в целом имеется опыт программирования и разработки, то разобраться очень легко...
Думаю что далее я еще пройдусь по енвам в Unity и может мы поделаем кастомные окружения. И мы точно еще много будем говорить о визуальных библиотеках и как там RL применяют.
#rl#unity#AGI_and_RL
🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы.
Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.
Сначала генерируются диалоги:
«Сколько букв r в слове strawberry?»
и правильные ответы.
После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.
Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.
Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу.
Nanochat решает задачу двумя способами:
— логически, рассуждая пошагово;
— через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.
Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.
📘 Разбор: github.com/karpathy/nanochat/discussions/164
@ai_machinelearning_big_data
#AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource