DN42 access
本服务为那些无法轻松访问自身网络的用户以及希望体验 dn42 但又不想承担维护自有网络成本的用户提供 dn42 连接
默认情况下,地址从/96地址块中分配,如果您希望租用独立的/96前缀或更大的地址空间,请按照联系方式联系我
所有公开的PoP均已屏蔽来自中国境内的 IP 地址。如果您确实需要dn42 access,请与我联系并提供合理的理由
该服务由AS4242423377提供
- - - - - - -
The service provides DN42 connectivity to members who cannot easily access their own networks, as well as to those who would like to explore DN42 without the overhead of maintaining their own network.
By default, addresses are allocated from a /96 block. If you wish to lease a dedicated /96 prefix or a larger address space, please contact me using the methods provided in the contact information.
All publicly accessible PoP are blocked for IPs originating from within China. DN42 access from within China is not publicly available. If you genuinely require access, please contact me and provide a valid justification.
Hosted by AS4242423377.
Policy
本服务需要花费时间和金钱才能运行,但为了您的利益,我们免费提供。使用本服务是一种特权,而非权利。您必须合理使用本服务,以确保其他用户也能继续享受同样的便利。任何滥用、误用或干扰服务或其他用户的行为都可能导致您的访问权限立即被暂停或终止。
滥用行为包括但不限于:
- 过度使用资源
- 黑客攻击、病毒、木马等,或任何其他可能损害服务或对服务及其用户造成风险的干扰行为
- 传播可能导致民事或刑事责任的不良内容
- - - - - - -
This service require real time and financial resources to operate, yet are provided free of charge for your benefit. Access to the services is a privilege, not a right. You must use the services responsibly and considerately to ensure that other users can continue to enjoy the same opportunities. Any misuse, abuse, or activities that disrupt the service or other users may result in immediate suspension or termination of access.
Abuse could include, but is not limited to:
- Excessive use of resources
- Hacking, viruses, trojans etc or any other disruption that could harm or create risk to the services or its users
- Distribution of objectional content that could create a civil or criminal liability
PoP
## Toronto, Canada
Prefix: fdb6:fc6a:e66c:724f:fad1:d2cf::/96
Zerotier: 4753cf475f65b0fb
## Los Angeles, USA
coming soon
#announcement#service
#ml#rl
How to Train your Decision-Making AIs
https://thegradient.pub/how-to-train-your-decision-making-ais/
The author reviewed "five types of human guidance to train AIs: evaluation, preference, goals, attention, and demonstrations without action labels".
The last one reminds me of the movie Finch. In the movie, Finch was teaching the robot to walk by demonstrating walking but without "labels".
🦾 Google DeepMind показала, как роботы учатся работать вместе с помощью обучения с подкреплением.
Учёные из UCL, Google DeepMind и Intrinsic представили новый AI-алгоритм RoboBallet — систему, которая позволяет нескольким роботизированным манипуляторам работать синхронно и без столкновений в сложной производственной среде,.
🔹 В эксперименте участвовали 8 роботов, каждый из которых мог выполнять 40 разных задач в одном общем пространстве.
🔹 Роботы могли брать любую задачу в любом порядке — система сама решала, кому что поручить и как построить безопасные траектории.
🔹 Алгоритм обучался в симуляции, а затем сразу работал в новых условиях без дообучения (*zero-shot*).
Пока решение работает только для задач перемещения (reaching), без учёта порядка выполнения или разных типов роботов.
Однако архитектура гибкая — в будущем возможно добавление сложных задач, зависимостей и разнообразных роботов.
Один алгоритм смог координировать целую команду, делая роботов гибкими и слаженными даже там, где они раньше не работали.
🟢 Подробнее: https://www.science.org/doi/10.1126/scirobotics.ads1204
@ai_machinelearning_big_data
#google#robots#ai#rl
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова
Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!
Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.
В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары#RL
🎓— Семинар 18. Mastering Memory Tasks with World Models | Артём Жолус
Завтра на семинаре выступит выпускник нашей магистерской программы МТИИ, ныне аспирант университета Монреаля и научный сотрудник лаборатория MILA (основанной Йошуа Бенджио) Артём Жолус
"В этом докладе я представлю Recall2Imagine (R2I), новую модель мира, которая может справиться с любой RL-задачей, требующей большого объема памяти агента (memory-intensive RL task). Эта модель построена на основе комбинации State-Space Models (SSMs), нового типа foundation model, и модели мира DreamerV3. Я покажу, как новая модель может освоить 30+ memory RL сред , включая MemoryMaze - среду, вдохновленную нейронаукой, в которой R2I является первым RL алгоритмом, достигшим сверхчеловеческой награды. Кроме того, я покажу, как память R2I остается устойчивой к различным типам контроля"
—
Tomorrow, a graduate of our master's program, now a graduate student at the University of Montreal and a researcher at the MILA laboratory (founded by Yoshua Bengio) Artem Zholus will speak at the seminar.
"In this talk, I will present Recall2Imagine (R2I), a new world model that can master any memory-intensive RL task out of the box. This model is built upon a combination of State-Space Models (SSMs), a new type of foundation model, and DreamerV3. I will show how a new model can master 30+ memory-intensive environments, including MemoryMaze, which is a neuroscience-inspired environment where R2I is the first algorithm that achieves superhuman performance. In addition, I'll show how R2I's memory remains robust to different types of control and observations in 50+ standard RL environments. The talk covers our paper accepted at ICLR 2024 with oral talk (top-1.2% of accepted papers)."
📹Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
—
Join the live discussion and ask questions live! Waiting for everyone!
#семинары#RL
#job#middle#senior#RL#ML
Вакансия: Data Scientist с опытом RL
Формат работы: гибрид, офис в Москве
Вилка: от 5000$ до 6000$
Компания: я являюсь рекрутером компании Task Agency
Что предлагаем:
•Удобный офис в Москве;
•Поощрения по результатам работы, привязанные к успеху торговой стратегии;
•Гибкая гибридная модель работы, адаптированная к индивидуальным и командным потребностям;
•Заработная плата в криптовалюте и тд
Что мы ожидаем:
•Высшее образование в области количественных финансов, компьютерных наук, математики или статистики.
•Опыт в области количественных исследований и применения методов обучения с подкреплением (RL).
•Глубокое понимание математического моделирования, статистического анализа и методов оптимизации.
•Отличные навыки программирования на Python, а также опыт работы с фреймворками глубокого обучения, такими как TensorFlow, PyTorch, JAX.
•Приветствуется опыт работы в трейдинге, маркет-мейкинге или высокочастотной торговле (HFT).
•Опыт разработки инструментов для бэктестинга и моделирования будет большим преимуществом.
Будет плюсом:
•Знание методов оптимизации алгоритмов, таких как эволюционные алгоритмы и байесовские подходы.
•Опыт работы с блокчейн-технологиями, смарт-контрактами и торговыми средами DeFi.
•Навыки работы в высокопроизводительных вычислительных средах (HPC).
Основные задачи:
•Разработка торговых моделей для пар ETH/USD+ и cbBTC/USD+ для рынков DeFi.
•Внедрение моделей на основе обучения с подкреплением (RL), таких как DQN и AS для маркет-мейкинга.
•Проведение бэктестинга и моделирования для оценки стратегий и тд.
По всем вопросам @ValeriyaStynke
#ML#NLP#LLM#RL#remote#huggingface
Компания: High Sky;
Позиция: Senior LLM-Engineer для решения задачи SWE
Вилка: от 8000$ до 15000$;
Формат: удаленная работа;
Занятость: full-time;
Опыт: от 6 лет.
Мы - динамично развивающийся стартап, решающий различные задачи AI в соревновательном формате: генерация текста, аудио и видео, обогащение данных, предиктивная аналитика. Мы осуществляем полный цикл работы над продуктом: от анализа бизнес-задачи до вывода в продакшен полноценного решения
Находимся в поиске Senior LLM-Engineer для решения задачи SWE
Чем предстоит заниматься:
- Главная задача - разработать агента для решения SWE задач
- обучение LLM
- написание кода агента, запускаемого в sandbox
- fine-tuning LLM
- Построение пайплайнов валидации и оценки моделей и агентов
- Сбор, очищение данных
- Выбор архитектур и pre-trained моделей
- Объединение моделей и адаптеров
Требования к кандидату:
- Опыт обучения LLM (fine-tuning / pre-training) от 2 лет
- Опыт применения различных методов обучения LLM
- Опыт с различными pre-trained моделями
- Опыт работы с экосистемой huggingface: transformers, datasets, peft, trl
- Хорошее понимание теоретической базы
NLP, transformers, LLM. Понимание всех циклов предобучения и файнтюнинга, RL, classic ML
- Опыт коммерческой разработки с нуля
- Опыт работы от 6 лет
- Высшее образование в области компьютерных технологий / прикладной математики и (или) прикладной информатики;
Будет плюсом:
- Опыт решения задачи SWE-bench
- Научные исследования по Computer Science
- Призовые места в соревнованиях (kaggle, boosters), опыт участия в хакатонах
- ШАД / Школа 21
Что мы предлагаем:
- Участие в разработке динамично развивающегося продукта, работающего на рынке в реальном времени;
- Справедливую заработную плату по результатам собеседования и вашей квалификации;
- Возможность прокачивать свою экспертизу за счет работы с топовыми коллегами и обучения в моменте;
- Классный молодой коллектив профессионалов, заряженных на результат. Ценим порядочность, честность и открытость;
- Горизонтальную структуру, отсутствие бюрократии и синдромов «больших начальников»;
- Мы за результат, а не процесс. У всех наших сотрудников удобный график и полностью удаленная работа без привязке к стране.
Для отклика пишите@perovvaa📩
🌟RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena.
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
🟡Технические детали.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile.
Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
🟡Стабильность.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
🟡Статья
🖥Github
@ai_machinelearning_big_data
#AI#ML#RL#Miles#LMSYS
🌟X-Omni от Tencent: авторегрессионная text-to-image модель с RL.
X-Omni - методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень.
X-Omni построена на гибридной, но при этом унифицированной архитектуре. Схематично она выглядит так:
Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev.
🟡Уникальность метода - в смеси RL по GRPO и комплексной reward-системе.
Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR.
Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов.
Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста.
🟡И это дало свои плоды, особенно в отрисовке текста, где авторегрессионные модели исторически пасовали.
На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o.
В задачах общей генерации по тексту X-Omni также на высоте. На DPG-Bench модель достигла SOTA-результата 87.65, опередив GPT-4o (86.23) и Show-o2 (86.14). На GenEval результат составил 0.83, чуть-чуть не дотянув до модели Mogao (0.89).
Даже в задачах на понимание изображений X-Omni показывает себя достойно: на OCRBench ее результат (704) превосходит другие унифицированные модели, например Emu3 (687).
🟡Интересные подробности.
Во-первых, X-Omni не нуждается в CFG. В отличие от Emu3 или Janus-Pro, качество которых резко падает при отключении CFG, X-Omni работает стабильно.
Во-вторых, что, пожалуй, самое важное, RL превосходит даже SFT с последующим сэмплингом best-of-N.
Этот вывод идет вразрез с устоявшимся мнением в области языкового моделирования и доказывает, что для изображений холистическая оптимизация через RL дает существенный прирост качества.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#T2I#RL#XOmni#Tencent
😊Одна из самых крутых библиотек для RL агентов - это библиотека ml-agents для Unity.
Позволяет довольно быстро освоиться с применением RL в играх.
На видео представлен уже предобученный агент из библиотеки, которого научили ходить и собирать зеленые кубики.
По ссылочкам можно найти все необходимое, но главное - примеры.
Среди этих примеров можно посмотреть как учили:
машины парковаться,
самолеты летать,
агентов играть в футбол
и много всего. Некоторые из них мы в будущем поразбираем.
Имеем из плюсов:
➕ Разработчики уже знакомые с моделированием сред (а это один из ключевых компонентов обучения с подкреплением) могут быстро влиться в тему.
➕ Имеем все плюшки Unity, вроде кросплатформенности, кучи готовых решений, C#. Зрелость самой платформы и огромная аудитория.
➕ Много готовых сред и предобученных агентов.
➕ Есть Python API.
➕ На ютубе и в интернете уже довольно много разборов с описаниями как ее применять.
Очень рекомендую эту библиотеку попробовать, если Unity Вам близок. Если в целом имеется опыт программирования и разработки, то разобраться очень легко...
Думаю что далее я еще пройдусь по енвам в Unity и может мы поделаем кастомные окружения. И мы точно еще много будем говорить о визуальных библиотеках и как там RL применяют.
#rl#unity#AGI_and_RL
🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы.
Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.
Сначала генерируются диалоги:
«Сколько букв r в слове strawberry?»
и правильные ответы.
После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.
Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.
Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу.
Nanochat решает задачу двумя способами:
— логически, рассуждая пошагово;
— через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.
Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.
📘 Разбор: github.com/karpathy/nanochat/discussions/164
@ai_machinelearning_big_data
#AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource