📌Подборка материалов по оптимизации агентных систем.
Awesome-Self-Evolving-Agents - подборка материалов по теме оптимизации агентов в концепции саморазвивающихся систем, в которой собраны работы с 2023 по 2025 год по 3-м направлениям: оптимизация одиночного агента, оптимизация мультиагентных систем и методы их оценки.
Содержание
🟡Оптимизация одного агента
🟢Оптимизация поведения LLM
🟢Оптимизация промпта
🟢Оптимизация памяти
🟢Инструменты
🟡Мультиагентная оптимизация
🟡Оценка
🟠LLM-судья
🟠Агент-судья
🟠Безопасность и элайнмент саморазвивающихся агентов
@ai_machinelearning_big_data
#AI#ML#LLM#Agents#AwesomeList#Github
🌟Genie Envisioner: платформа, которая учит роботов действовать, просто смотря видео.
Genie Envisioner (GE) — унифицированная платформа от AgiBot Genie Team, где обучение, симуляция и оценка объединены в рамках одной видеогенеративной модели.
🟡GE-Base
В основе всей системы лежит GE-Base, диффузионная видеомодель, натренированная на огромном датасете из миллиона эпизодов реальных манипуляций, записанных с нескольких камер, общей продолжительностью почти 3000 часов.
Модель училась предсказывать следующие кадры видео на основе текстовой инструкции и предыдущих наблюдений, таким образом формируя внутреннее представление о физике мира и динамике объектов.
🟡GE-Act
Но предсказывать видео - это одно, а выполнять действия - совсем другое. За это отвечает второй компонент, GE-Act. Это легковесный модуль на 160 млн. параметров, который подключается к GE-Base и преобразует ее внутренние представления в конкретные команды для моторов робота.
Проще говоря, он переводит предсказания в исполняемые траектории. Причем делает это быстро: на генерацию последовательности из 54 шагов уходит всего 200 миллисекунд на NVIDIA RTX 4090, что позволяет использовать систему в реальном времени.
🟡GE-Sim
Замыкает троицу компонент GE-Sim - нейронный симулятор, построенный на той же GE-Base. Он позволяет прогонять тысячи симуляций в час для оценки политик без использования реального железа.
Чтобы объективно измерять качество таких видео-симуляторов, авторы разработали собственный бенчмарк EWMBench. Он оценивает не только визуальную правдоподобность, но и физическую консистентность и соответствие действий инструкциям.
На этом бенчмарке GE-Base ожидаемо обошла все современные генеративные видеомодели: Kling, OpenSora и COSMOS, набрав итоговый балл 4.70, в то время как ближайший соперник, Kling, получил 3.87.
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Robotics#GenieEnvisioner#AgiBot
🔥 Как реально выбирают LLM в 2025 — исследование LLM Arena
Интересный опрос практиков (инженеров, ML-учёных, AI-продуктов) - как сегодня на самом деле выбирают языковые модели (LLM), что важнее: бенчмарки или собственные тесты, цена/скорость/качество, и чего не хватает в информации по моделям.
📊Ключевые выводы
- 82,2% респондентов проводят собственные тесты; бенчмарки — лишь ориентир, не решение.
- 26,7% вообще не пользуются бенчмарками.
- В центре внимания: баланс качество / цена / скорость, устойчивость (без галлюцинаций), соответствие инфраструктуре.
👥 Участники опроса
- 45 практиков с опытом работы с LLM-продуктами; все участники — профессионалы.
- ML/AI Инженеры, Data Scientists, AI-строители, и менеджмент.
🔑 Что ищут и какие сигналы важны:
- Часто оценивают обсуждаемость модели в статьях/сообществе; практическое применение в похожих продуктах.
- Обращают внимание на число скачиваний и звёзд на Hugging Face / GitHub.
- Хотят больше данных о требованиях к железу, лицензиях, локальной работе, графиках “цена vs качество”, “скорость vs качество”.
⚠️Проблемы & доверие
- Многие не доверяют существующим бенчмаркам из-за методологических проблем (train/test leakage, нерелевантность задач).
- Лабораторные условия часто сильно отличаются от продакшн.
- Нехватка отзывов по реальным сценариям и использованиям.
При выборе LLM важнее собственные тесты и контекст задач, чем рейтинги. Специалисты хотят поточечных данных: про лицензии, требования к железу, latency, стоимость.
Инициатор исследования Роман Куцев - фаундер и CEO LLM Arena, публикуют много интересного у себя в блоге.
Для тех, кто строит LLM-продукты, полезно:
- Не ориентироваться только на чужие бенчмарки.
- Собирать метрики в собственных условиях — на реальных данных.
- Открыто показывать, что работает, а что — нет, в документации и обсуждениях.
🟢 Полное исследование: https://research.llmarena.ru/
#LLM#AI#ИИ#LLMArena#исследование#нейросети#benchmarks
2025-yil 19-oktabr kuni oltita universitetdan o‘n nafar o‘zbekistonlik talaba #SeedsForTheFuture flagman ta’lim dasturida ishtirok etish uchun Xitoyga jo‘nab ketdi.🌱
📍Bir hafta davom etadigan dasturning birinchi manzili Dongguandagi Huawei kompaniyasining bosh qarorgohi bo‘ldi. Uch kun davomida talabalar:
- 19 ta mamlakat ishtirokchilari bilan tanishdilar;
- Sun'iy intellekt, 5G va bulutli texnologiyalar bo'yicha ma'ruzalarda qatnashdilar;
- kompaniya mutaxassislari va murabbiylar bilan muloqot qildilar;
- Huawei kompaniyasining e’tirofga sazovor va aqlli kampusiga tashrif buyurdilar;
- va o’zlari uchun raqamli dunyoda yanada ko'proq imkoniyatlarni ochdilar.
🙌Safarning boshlanishi ma'rifiy bo'lib, AKT iste'dodlari bilan o'zaro muloqotga to'la bo'ldi. Xitoyga raqamli sayohat va boshqa #Huawei taʼlim loyihalari orqali oʻz iqtidoringizni rivojlantirish imkoniyatlari haqida koʻproq bilish uchun ijtimoiy tarmoqlardagi postlarimizni kuzatib boring.
🌱🌱🌱
19 октября 2025г. десять студентов Узбекистана из шести ВУЗов отправились в Китай для участия во флагманской образовательной программе #SeedsForTheFuture🌱
📍Первой локацией недельной программы стала штаб-квартира Huawei г.Дунгуан. За три дня студенты
- познакомились с участниками из 19 стран;
- прослушали лекции на тему Искусственного Интеллекта, #5G и Облачных технологий;
- пообщались с экспертами и тренерами компании;
- посетили живописный и интеллектуальный кампус компании Huawei;
- и открыли для себя ещё больше возможностей цифрового мира.
🙌Начало путешествия оказалось познавательным и полным общения с #ИКТ талантами. Следите за нашими публикациями в социальных сетях, чтобы узнать больше о цифровом туре в Китай и возможностях для развития своего таланта на базе других образовательных проектов #Huawei
#UZ_SeedsForTheFuture#DigitalTalent#DigitalEducation#ICTheFuture#ICTacademy#ICTcompetition#AI
2025-yil 19-oktabr kuni oltita universitetdan o‘n nafar o‘zbekistonlik talaba #SeedsForTheFuture flagman ta’lim dasturida ishtirok etish uchun Xitoyga jo‘nab ketdi.🌱
📍Bir hafta davom etadigan dasturning birinchi manzili Dongguandagi Huawei kompaniyasining bosh qarorgohi bo‘ldi. Uch kun davomida talabalar:
- 19 ta mamlakat ishtirokchilari bilan tanishdilar;
- Sun'iy intellekt, 5G va bulutli texnologiyalar bo'yicha ma'ruzalarda qatnashdilar;
- kompaniya mutaxassislari va murabbiylar bilan muloqot qildilar;
- Huawei kompaniyasining e’tirofga sazovor va aqlli kampusiga tashrif buyurdilar;
- va o’zlari uchun raqamli dunyoda yanada ko'proq imkoniyatlarni ochdilar.
🙌Safarning boshlanishi ma'rifiy bo'lib, AKT iste'dodlari bilan o'zaro muloqotga to'la bo'ldi. Xitoyga raqamli sayohat va boshqa #Huawei taʼlim loyihalari orqali oʻz iqtidoringizni rivojlantirish imkoniyatlari haqida koʻproq bilish uchun ijtimoiy tarmoqlardagi postlarimizni kuzatib boring.
🌱🌱🌱
19 октября 2025г. десять студентов Узбекистана из шести ВУЗов отправились в Китай для участия во флагманской образовательной программе #SeedsForTheFuture🌱
📍Первой локацией недельной программы стала штаб-квартира Huawei г.Дунгуан. За три дня студенты
- познакомились с участниками из 19 стран;
- прослушали лекции на тему Искусственного Интеллекта, #5G и Облачных технологий;
- пообщались с экспертами и тренерами компании;
- посетили живописный и интеллектуальный кампус компании Huawei;
- и открыли для себя ещё больше возможностей цифрового мира.
🙌Начало путешествия оказалось познавательным и полным общения с #ИКТ талантами. Следите за нашими публикациями в социальных сетях, чтобы узнать больше о цифровом туре в Китай и возможностях для развития своего таланта на базе других образовательных проектов #Huawei
#UZ_SeedsForTheFuture#DigitalTalent#DigitalEducation#ICTheFuture#ICTacademy#ICTcompetition#AI
#typescript#agentic_ai#agents#ai#claude#copilot#cursor#git#llm#mcp
GitMCP is a free, open-source service that connects AI assistants to any GitHub project’s latest documentation and code using the Model Context Protocol (MCP). This means your AI can access up-to-date, accurate information directly from the source, reducing mistakes and hallucinations when coding or asking questions about libraries, even new or niche ones. You just add a GitMCP URL for your chosen GitHub repo to your AI tool, and it fetches relevant docs and code smartly without setup hassle. This helps you get reliable code examples and API usage instantly, improving your coding efficiency and accuracy. It’s private, easy to use, and works with many AI assistants.
https://github.com/idosal/git-mcp