TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват351,800Просмотры последних постов
Последние посты

Последние посты

Тег: #robotics · 15 постов

当前筛选 #robotics清除筛选

Опубликован 14 апр.

🌟HY-Embodied-0.5: компактная модель для роботов на Mixture-of-Transformers. Tencent Robotics X и Hunyuan Vision выложили веса HY-Embodied-0.5 MoT-2B — младшей модели нового семейства HY-Embodied-0.5 для воплощённого интеллекта. Семейство позиционируется как когнитивное ядро для VLA-пайплайнов: модель должна выполнять роль «мозга», который принимает кадры с камер робота, рассуждает о трехмерной сцене и выдает план действий исполнительному модулю. Формально MoT-2B содержит 4 млрд параметров, но на инференсе активируется только 2,2 млрд, что дает скорость плотной 2B-модели при качестве восприятия, сопоставимом с тяжёлыми VLM. В основе лежит архитектура Mixture-of-Transformers с латентными токенами и модально-специфичными вычислениями для зрительного тракта. Суть MoT: перед мультимодальным обучением Tencent дублирует FFN- и QKV-блоки языковой модели и инициализирует копию её же весами - визуальные токены прогоняются через визуальную ветку, текстовые через языковую. Помимо разделения FFN и QKV, разведены и механизмы внимания: для визуальных токенов используется двунаправленное полное внимание, для языковых - causal-внимание. Связующим звеном служат обучаемые visual latent tokens, которые приписываются в конец каждого визуального элемента (кадра или изображения) и переносят визуальную семантику в языковой контекст. В семействе будет старший вариант - HY-Embodied-0.5 MoE-A32B на 32 млрд активных параметров. Он построен уже на MoE и, по словам создателей, выходит на уровень Gemini 3.0 Pro. Веса флагмана не опубликованы, но именно эта модель выступает учителем в дистилляции, передавая навыки рассуждения младшей MoT-2B. 🟡Результаты на бенчмарках 🟢MoT-2B обходит Qwen3-VL 2B/4B, RoboBrain 2.5 4B и MiMo-Embodied 7B в большинстве из 22 тестов на визуальное восприятие и пространственное мышление: 89,2 на CV-Bench, 92,3 на DA-2K, 54,5 на ERQA и 66,3 на MindCube, где ближайший конкурент отстаёт почти вдвое. 🟠На задачах планирования (RoboBench-Planning, Ego-Plan2, RefSpatial-Bench) лидерство остаётся за RoboBrain и MiMo-Embodied, здесь Tencent пока догоняет. Для инференса рекомендуется GPU с минимум 16 ГБ VRAM. В планах - интеграция с vLLM и Gradio-демо. 📌Лицензирование: Tencent HY Community License 🟡Модель 🟡Arxiv 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI#ML#Embodied#Robotics#Tencent#Hunyuan

20,100 views

Опубликован 24 мар.

🌟Kimodo: диффузионная модель для генерации 3D-движений людей. NVIDIA выложила в открытый доступ проект Kimodo - генеративную модель на основе диффузии, которая создает реалистичные трехмерные движения для человеческих и робототехнических скелетов. Kimodo принимает на вход текстовые промпты и ключевые позы всего тела, позиции и вращения конечностей, двухмерные пути и контрольные точки. Это позволяет точно управлять генерацией: от общего описания наподобие "персонаж идет и садится на стул" до детального контроля положения рук и ног в кадрах. Всего доступно 5 вариантов модели для 3 типов скелетов: SOMA, SMPL-X и Unitree G1. Первые два ориентированы на анимацию аватаров, третий - на робота Unitree G1. Модели, обученные на полном датасете Bones Rigplay 1 (700 часов), NVIDIA рекомендует как основные рабочие. Варианты на сете BONES-SEED (288 часов) предназначены для бенчмаркинга и сравнения с собственными разработками. Для работы с Kimodo предусмотрены 3 интерфейса: 🟢Интерактивное веб-демо с таймлайн-редактором; 🟢CLI-утилита для пакетной генерации; 🟢Python API для тонкой настройки . Под инференс потребуется около 17 ГБ видеопамяти, модели запускали на RTX 3090, RTX 4090 и NVIDIA A100. 🟡Интеграция с робототехническим стеком NVIDIA. ProtoMotions позволяет брать сгенерированные движения и обучать на них физически корректные политики управления в GPU-ускоренной симуляции — как для аватаров, так и для Unitree G1. Через General Motion Retargeting движения, созданные на скелете SMPL-X, можно перенести на произвольных роботов. 📌Лицензирование: Код проекта под Apache 2.0, большинство моделей под NVIDIA Open Model License. Вариант SMPL-X имеет более ограниченную NVIDIA R&D Model License, она допускает только исследовательское применение. 🟡Набор моделей 🟡Техотчет 🖥Github @ai_machinelearning_big_data #AI#ML#Robotics#Kimodo#NVIDIA

25,600 views

Опубликован 21 янв.

🌟GenRobot RealOmni-OpenData: апдейт датасета для Embodied AI RealOmni - это не просто каталог видео, где роборука хватает кубик на белом столе. Это мультимодальный подарок с траекториями, аннотациями и движениями суставов. 🟡Сенсоры Картинка с Fisheye-камер, данные IMU (инерциалка), энкодеры и данные с тактильных датчиков с разрешением 1 мм. 🟡Сценарии Снимали в 3000 реальных домах, никаких стерильных лабораторий: складывание одежды, завязывание шнурков, разбор посуды и сортировка всякого хлама. 🟡Bimanual manipulation Почти все таски двурукие. 🟡Long-horizon Медианная длина клипа ~ 210 секунд. То есть это не "схватил-положил", а полноценные процессы "достать, сложить, убрать в ящик". В свежем обновлении добавили 35 тыс. клипов с фокусом на разгребание куч разнородных предметов. Это именно та задача, на которой сыпется большинство моделей. Немного цифр о всем датасете 🟢Объем (заявленный): 95 ТБ (об этом ниже). 🟢Количество клипов: 1M+ (в планах). 🟢Разрешение: 1600x1296 @ 30fps. 🟢Формат: .mcap (стандарт для ROS, внутри сжатый H.264). Весть проект запланирован объемом 95 ТБ и хронометражем 10,000 часов. Но если посчитать, то что уже залито (Stage 1 + Stage 2), то суммарно около 5.4 ТБ и ~1600 часов. Остальное обещают догрузить as soon as possible. 🟡Важно знать Данные собраны специфическим гриппером GenDAS, так что если у вас другой сенсорный массив (или его нет), transfer learning может стать болью. Ассеты заточены под железку GenRobot. Это все еще телеоперация. То есть мы учим робота копировать движения человека-оператора и если он тупил или руки дрожали сетка это тоже выучит. Тем не менее, это очень крутой релиз для тех, кто пилит домашних роботов. Данные по завязыванию шнурков и разбору предметов в open-source редкость. 📌Лицензирование: CC-BY-NC-SA-4.0 License. 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI#ML#Robotics#Dataset#RealOmni#GenRoborAI

26,400 views

Опубликован 19 янв.

📌Библиотека алгоритмов робототехники на Python. PythonRobotics - открытая коллекция кода на Python и учебник по алгоритмам робототехники, которую собрал Ацуши Сакаи. 🟡В проекте есть все: 🟢Локализация (EKF, фильтры частиц, гистограммные фильтры); 🟢SLAM (FastSLAM, ICP-сопоставление); 🟢Планирование пути (A, RRT, Дейкстра, D*, потенциальные поля, решетка состояний); 🟢Отслеживание траекторий (контроллер Стэнли, LQR, MPC); 🟢Навигация для манипуляторов; 🟢БПЛА; 🟢Проектирование движения для двуногих роботов. К каждой теме есть визуальные анимации, математические объяснения и рабочий код. Библиотека не перегружена, ее легко читать и понимать, она содержит практические алгоритмы. которые реально используются в индустрии. Это отличный образовательный ресурс с 2 212 коммитами, вкладом 138 разработчиков и активной поддержкой. Если вы изучаете робототехнику, создаете автономные системы или преподаете алгоритмы — этот ресурс для вас. У проекта лицензия MIT, так что можно свободно использовать его в личных или коммерческих проектах. А еще, это отличный пример, как выглядит хороший опен-сорс: образовательный, практичный, хорошо документированный и развиваемый сообществом. @ai_machinelearning_big_data #AI#ML#Robotics#Github

36,900 views

Опубликован 4 янв.

🎾 Твой новый роботозированный партнёр по теннису. UBTECH показали как их гуманоид Walker S2 вышел на корт и провёл полноценный розыгрыш против человека в прямом эфире. Похоже, время обычных машин для подач подходит к концу. @ai_machinelearning_big_data #Robotics#Tennis#AI#UBTECH#Future

33,000 views

Опубликован 22 дек.

🤖Cтудия Leehom Wang показала выступление с гуманоидным роботом Unitree G1 на сцене. Финальный акробатический флип стал настоящей кульминацией шоу и вызвал бурную реакцию публики. ИИ должен был оптимизировать бизнес-процессы. Но сначала решил раскачать зал. @ai_machinelearning_big_data #Robotics#HumanoidRobots#AI#Unitree

28,200 views

Опубликован 12 дек.

🌟PyRoki: Библиотека кинематики роботов на Python. PyRoki (Python Robot Kinematics) - это модульный, расширяемый и кроссплатформенный инструментарий, заточенный под задачи кинематической оптимизации и реализованный полностью на Python. Фишка библиотеки - в предоставлении дифференцируемой модели прямой кинематики робота, которая строится на основе URDF-файлов, тем самым избавляя инженера от необходимости вручную прописывать кинематические цепи: система не только парсит описание робота, но и автоматически генерирует примитивы коллизий. С точки зрения математического аппарата, PyRoki интегрируется с решателем Levenberg-Marquardt (через jaxls). Это дает возможность проводить оптимизацию на многообразиях, а также обрабатывать жесткие ограничения с помощью решателя на основе модифицированной функции Лагранжа. Библиотека предлагает готовые реализации cost-функций: поза рабочего органа, коллизии с самим собой или объектами мира и метрики манипулируемости. Если стандартного набора недостаточно, архитектура позволяет задавать свои функции затрат, используя как автоматическое дифференцирование, так и аналитические якобианы. Благодаря базе JAX, библиотека кроссплатформенна: ее работа возможна на CPU, GPU и TPU. 🟡При внедрении PyRoki в пайплайн важно учитывать специфику JIT-компиляции в JAX. Компиляция триггерится при первом запуске, а также каждый раз, когда меняются формы входных данных: например, количество целей или препятствий. Чтобы избежать расходов на перекомпиляцию, рекомендуется использовать предварительный паддинг массивов, что позволяет векторизовать вычисления для входов с различными шейпами. Также стоит учитывать, что в библиотеке отсутствуют планировщики, основанные на сэмплировании (графы, деревья), поэтому задачи глобального планирования пути придется решать внешними средствами. 🟡Типы поддерживаемых соединений и геометрия ограничены. На данный момент PyRoki работает исключительно с кинематическими деревьями; замкнутые механизмы или параллельные манипуляторы не поддерживаются. Список доступных типов джоинтов ограничен 4 позициями: вращательные, непрерывные, призматические и фиксированные. Любые другие типы соединений, встреченные в URDF, будут автоматически интерпретироваться системой как фиксированные. Для геометрии коллизий набор примитивов также фиксирован: поддерживаются сферы, капсулы, полупространства и карты высот. Если ваша модель использует сложные меши, коллизии для них будут аппроксимироваться капсулами. В вопросах производительности, особенно в сценариях с интенсивными проверками коллизий, PyRoki, вероятно, уступает CuRobo, хотя, как говорится в документации - сравнительные тесты скорости и точности авторами пока не проводились. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Arxiv 🟡Документация 🖥GitHub @ai_machinelearning_big_data #AI#ML#Robotics#Pyroki#Python

31,100 views

Опубликован 8 дек.

🤖 Роботы GITAI самостоятельно и собрали 5-метровую конструкцию - фундамент будущих внеземных модулей. Это пример того, как связка ИИ + робототехника начинает давать тот самый технологический скачок, на который долго рассчитывали: автономные системы, способные строить инфраструктуру без участия человека, открывают путь к базам на Луне, Марсе и орбите. @ai_machinelearning_big_data #robotics#AI#automation#spacetech#GITAI

32,400 views

Опубликован 15 окт.

🤖Unitree G1 Kungfu Kid V6.0 — это уже не просто робот, а настоящий кунг-фу мастер. Полтора года тренировок сделали своё дело: он стал быстрее, сильнее и умнее. У робота 43 степени свободы, куча сенсоров и гибридная система управления, которая позволяет ему постоянно учиться и оттачивать движения. Кажется, мы реально приближаемся к моменту, когда роботы начнут тренироваться, как люди. Интересно, чему G1 научится следующим - паркуру или еще чему покруче? @ai_machinelearning_big_data #AI#Robotics#Humanoid#Unitree#FutureTech

28,100 views

Опубликован 26 сент.

🦾 Google представил Gemini Robotics-ER 1.5 - новую модель для роботов, которая умеет видеть, рассуждать, планировать и действовать в реальном мире. Что она может: - Понимать пространство и объекты вокруг. - Разбивать задачу на шаги (например: «убери стол» → план действий). - Подключать внешние инструменты - поиск, модели для анализа изображений и др. - Балансировать скорость и точность: быстро реагировать или глубже анализировать. - Работать безопаснее: учитывать вес предметов и физические ограничения. Мир слишком сложен для роботов: окружение, сцены, объекты постоянно меняются. Gemini Robotics-ER помогает роботам соединять понимание и действие. 📌 Пример: робот сортирует мусор. Он узнаёт местные правила, распознаёт предметы, планирует действия и выполняет всё безопасно. https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/ @ai_machinelearning_big_data #Google#Gemini#Robotics#AI#PhysicalAgents

32,500 views

Опубликован 18 сент.

🤖 Demis Hassabis (Google DeepMind) о будущем робототехники ⦿ Гуманойдные формы могут оказаться ключевыми для повседневного и персонального использования — там, где среда создана под людей. А вот специализированные роботы будут незаменимы на производстве и в лабораториях. ⦿ В ближайшие пару лет нас ждёт «вау-момент» в робототехнике. Но фундаментальные модели пока требуют доработки: надёжности и более глубокого понимания реального мира. ⦿ DeepMind работает сразу в двух направлениях: - как с Android для роботов — универсальный слой ОС, совместимый с любым роботом; - и с вертикальной интеграцией - разработка конкретных роботов «под ключ». Идея проста: скоро роботы будут не только на заводах, но и рядом с нами — а управлять ими станет так же привычно, как смартфоном. 🟢Полное интервью: https://www.youtube.com/watch?v=Kr3Sh2PKA8Y @ai_machinelearning_big_data #DeepMind#Google#DemisHassabis#Robotics

29,500 views

Опубликован 10 сент.

⚡️ Мы сделали для вас выжимку из вчерашнего 44-минутного интервью Илона Маска на All-In Summit. 🤖 Optimus - Tesla завершает разработку Optimus Gen 3. Маск называет его «выдающимся роботом» (кто бы сомневался). - Робот получит человеческую ловкость рук и ИИ-разум, способный ориентироваться в реальности. - Цепочек поставок нет - всё создаётся с нуля: от электродвигателей до электроники. На одну руку приходится 26 актуаторов (исполнительных механизмов, которые преобразуют энергию в движение). - При выпуске 1 млн штук в год цена может снизиться до $20,000, хотя один AI-чип стоит $5–6K и выше. - Маск: *«Если Optimus будет успешен - это станет крупнейшим продуктом в истории»* (и снова маркетинг). - Встроенный LLM без подписки. 🖥️ AI-чипы и FSD - AI5 - собственный суперчип Tesla для ИИ. Он обещает огромный скачок вперёд: - до 40× быстрее AI4 по отдельным метрикам, - 8× больше вычислений, - 10× больше памяти, - 5× выше пропускная способность памяти. - Команды «железа» и софта впервые разрабатывают чип совместно. - Даже AI4 позволит достичь серьёзной автономности. - Маск утверждает: к концу года продукты на новых чипах будут казаться «почти разумными». 📡 Starlink - Новый диапазон частот позволит передавать интернет напрямую со спутника в смартфон. - Понадобятся новые чипсеты - такие телефоны появятся через ~2 года. - Интернет будет работать везде, включая здания и даже подземные пространства. - Можно будет оформить аккаунт Starlink вместо Verizon/AT&T, хотя операторы полностью с рынка не уйдут. - Маск не исключает, что SpaceX может купить телеком-компании ради доступа к спектру. ⭐️Starship - С 2026 года SpaceX планирует демонстрировать полную многоразовость — с возвратом корабля и бустера. - Starship V3 — радикально переработанный, способен выводить более 100 тонн на орбиту. - Маск считает, что самодостаточная жизнь на Марсе возможна примерно через 25 лет. 🔥 Искусственный интеллект - Уже в следующем году ИИ станет умнее любого человека. - К 2030 году он превзойдёт интеллект всего человечества вместе взятого. - Человеческий интеллект, по мнению Маска, будет снижаться. 💬 Самая яркая цитата прозвучала в адрес правительства США: *«Если ИИ и роботы не решат проблему госдолга — нам крышка».* В итоге Маск делает ставку на Optimus как на будущий «самый крупный продукт», улучшает AI-чипы, выводит Starlink в новый формат глобальной связи и готовит Starship к Марсу. @ai_machinelearning_big_data #ElonMusk#Interview#AI#Robotics#Optimus#Tesla#FSD#Starlink#Starship#SpaceX

28,000 views
12
НазадСтр. 1 из 2Вперёд