⚡️ Релиз Agent S3 - продвинутый агент для работы с компьютером, который приближается к человеческому уровню.
Вместо того, чтобы усложнять одну модель, авторы запускают несколько агентов параллельно и затем выбирают лучший результат.
Метод назвили **Behavior Best-of-N (bBoN).
Как работает:
- Каждый агент пробует решить задачу.
- Его действия переводятся в поведенческий нарратив - короткое описание, что реально изменилось на экране.
- Специальный судья сравнивает эти нарративы и выбирает лучший.
Результаты:
- GPT-5 с 10 параллельными агентами → 69.9% успеха
- Для примера у GPT-5 Mini → 60.2%
- Agent S3* набирает на +10% выше предыдущей SOTA
📄Paper: http://arxiv.org/abs/2510.02250
💻Code: http://github.com/simular-ai/Agent-S
📝Blog: http://simular.ai/articles/agent-s3
@ai_machinelearning_big_data
#AI#Agents#AgentS3#OSWorld#SimularAI#LLM
⚡️ Релиз Agent S3 - продвинутый агент для работы с компьютером, который приближается к человеческому уровню.
Вместо того, чтобы усложнять одну модель, авторы запускают несколько агентов параллельно и затем выбирают лучший результат.
Метод назвили **Behavior Best-of-N (bBoN).
Как работает:
- Каждый агент пробует решить задачу.
- Его действия переводятся в поведенческий нарратив - короткое описание, что реально изменилось на экране.
- Специальный судья сравнивает эти нарративы и выбирает лучший.
Результаты:
- GPT-5 с 10 параллельными агентами → 69.9% успеха
- Для примера у GPT-5 Mini → 60.2%
- Agent S3* набирает на +10% выше предыдущей SOTA
📄Paper: http://arxiv.org/abs/2510.02250
💻Code: http://github.com/simular-ai/Agent-S
📝Blog: http://simular.ai/articles/agent-s3
@ai_machinelearning_big_data
#AI#Agents#AgentS3#OSWorld#SimularAI#LLM
⚡️Как Яндекс внедрил LLM в QA и что из этого получилось
На Хабре вышел подробный разбор о том, как Яндекс внедряет LLM в процессы тестирования. Из интересного: генерация чек-листов и тест-кейсов, создание автотестов, первые шаги в сторону ИИ-агентов для ручного тестирования.
Разобрали и технические сложности: интеграции с TMS, единые MCP-коннекторы, LLM-As-A-Judge и работу с «зоопарком» инструментов. В статье много схем и цифр, включая рост скорости написания автотестов на ~30%.
@ai_machinelearning_big_data
#ai#LLM
⚡️Новый датасет Т-ECD — крупнейший кросс-доменный набор для RecSys
Ключевые особенности:
- синтезирован на основе поведения 44 млн пользователей
- более 135 млрд взаимодействий
- включает 30 млн товаров и 1,2 млн брендов
- охватывает домены: Marketplace, Retail, Payments, Offers, Reviews, Reciepts
- подходит для большинства рекомендательных задач
- глубина данных 1– 3,5 года — можно изучать как краткосрочные, так и долгосрочные взаимодействия
T-ECD универсален и применяется от базовой коллаборативной фильтрации до сложных мультизадачных моделей последовательных и графовых рекомендаций. Можно использовать целиком и по отдельным доменам.
🟠HF: https://huggingface.co/datasets/t-tech/T-ECD
@ai_machinelearning_big_data
#AI#LLM
#python#agents#ai#llm#mcp
You can access a large collection of ready-to-use AI agent projects and tutorials that help you build smart applications like chatbots, research assistants, and automation tools using popular AI frameworks such as LangChain, OpenAI Agents SDK, and Agno. This collection includes simple starter agents, advanced multi-agent workflows, and tools with memory and document understanding. It also offers step-by-step setup instructions and video tutorials to help you learn quickly. Using these resources saves you time and effort in creating powerful AI apps, making it easier to develop, test, and deploy AI solutions even if you are new to AI programming.
https://github.com/Arindam200/awesome-ai-apps
#book#llm#ai
🤑
Building, Training and Hardware for LLM AI: A Comprehensive Guide to Large Language Model Development Training
-----
Main channel: @repo_science
Coupons: @freecoupons_reposcience
-----
#python#agents#ai#anthropic#llm#openai#python
You can use this Cookbook to quickly add ready-made AI code snippets to your projects, saving you time and effort in building AI systems. It offers practical tutorials and resources to help you learn AI development, start freelancing, or get expert help on your AI projects. Joining the free community can support your learning, and the GenAI Launchpad helps you build AI applications faster. This means you can develop real-world AI solutions more easily and grow your skills or business with guidance from an experienced AI engineer.
https://github.com/daveebbelaar/ai-cookbook
#python#agents#ai#framework#llm#openai#python
The OpenAI Agents SDK is a Python framework that lets you easily build and connect AI agents—smart programs that can talk, use tools, and work together to solve tasks[2][3]. You can turn any Python function into a tool an agent can use, set up safety checks to control what agents do, and automatically pass tasks between different agents when needed[2][4]. The SDK manages conversation history for you, so agents remember past interactions, and it includes tools to track and debug how agents make decisions[2]. This makes it simple to create reliable, customizable AI helpers for things like customer support, research, or automation, with clear oversight and fast development.
https://github.com/openai/openai-agents-python
⭐️Nous Research открыла исходный код Nomos 1.
При размере всего 30B параметров модель набрала 87/120 на Putnam - одном из самых престижных математических конкурсов в мире.
Такой результат соответствовал бы 2-му месту среди 3988 участников в 2024 году.
Nomos 1 показала 87/120 и восемь идеальных решений. Для сравнения: Qwen3-30B при тех же условиях получила 24/120. Это подчёркивает, что преимущество Nomos связано прежде всего с качеством обучения и данных, а не с тестовой средой.
Проверка решений проходила вслепую: их оценивал реальный участник Putnam из топ-200, получивший обезличенные ответы.
Задачи решались в тех же временных рамках, что и у участников - по 3 часа на каждую часть.
Система рассуждений устроена так:
— сначала “workers” решают наиболее сложные задачи и сами оценивают свои решения;
— затем этап финализации, ИИ объединяет ответы и выбирает итоговый вариант.
▪HF: https://huggingface.co/NousResearch/nomos-1
▪Github: https://github.com/NousResearch/nomos
@ai_machinelearning_big_data
#llm#ml#ai