TGTGInsightаналитика telegramLIVE / telegram public index
← DevOps

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @DevOPSitsec · Post #1792 · 3 окт.

⚡️ Релиз Agent S3 - продвинутый агент для работы с компьютером, который приближается к человеческому уровню. Вместо того, чтобы усложнять одну модель, авторы запускают несколько агентов параллельно и затем выбирают лучший результат. Метод назвили **Behavior Best-of-N (bBoN). Как работает: - Каждый агент пробует решить задачу. - Его действия переводятся в поведенческий нарратив - короткое описание, что реально изменилось на экране. - Специальный судья сравнивает эти нарративы и выбирает лучший. Результаты: - GPT-5 с 10 параллельными агентами → 69.9% успеха - Для примера у GPT-5 Mini → 60.2% - Agent S3* набирает на +10% выше предыдущей SOTA 📄Paper: http://arxiv.org/abs/2510.02250 💻Code: http://github.com/simular-ai/Agent-S 📝Blog: http://simular.ai/articles/agent-s3 @ai_machinelearning_big_data #AI#Agents#AgentS3#OSWorld#SimularAI#LLM

Результаты

Найдено 10,350 похожих постов

Общий глобальный поиск

Machinelearning

@ai_machinelearning_big_data · Post #8686 · 03.10.2025, 09:47

⚡️ Релиз Agent S3 - продвинутый агент для работы с компьютером, который приближается к человеческому уровню. Вместо того, чтобы усложнять одну модель, авторы запускают несколько агентов параллельно и затем выбирают лучший результат. Метод назвили **Behavior Best-of-N (bBoN). Как работает: - Каждый агент пробует решить задачу. - Его действия переводятся в поведенческий нарратив - короткое описание, что реально изменилось на экране. - Специальный судья сравнивает эти нарративы и выбирает лучший. Результаты: - GPT-5 с 10 параллельными агентами → 69.9% успеха - Для примера у GPT-5 Mini → 60.2% - Agent S3* набирает на +10% выше предыдущей SOTA 📄Paper: http://arxiv.org/abs/2510.02250 💻Code: http://github.com/simular-ai/Agent-S 📝Blog: http://simular.ai/articles/agent-s3 @ai_machinelearning_big_data #AI#Agents#AgentS3#OSWorld#SimularAI#LLM

Machinelearning

@ai_machinelearning_big_data · Post #9158 · 03.12.2025, 09:02

⚡️Как Яндекс внедрил LLM в QA и что из этого получилось На Хабре вышел подробный разбор о том, как Яндекс внедряет LLM в процессы тестирования. Из интересного: генерация чек-листов и тест-кейсов, создание автотестов, первые шаги в сторону ИИ-агентов для ручного тестирования. Разобрали и технические сложности: интеграции с TMS, единые MCP-коннекторы, LLM-As-A-Judge и работу с «зоопарком» инструментов. В статье много схем и цифр, включая рост скорости написания автотестов на ~30%. @ai_machinelearning_big_data #ai#LLM

Hashtags

Machinelearning

@ai_machinelearning_big_data · Post #8628 · 26.09.2025, 10:03

⚡️Новый датасет Т-ECD — крупнейший кросс-доменный набор для RecSys Ключевые особенности: - синтезирован на основе поведения 44 млн пользователей - более 135 млрд взаимодействий - включает 30 млн товаров и 1,2 млн брендов - охватывает домены: Marketplace, Retail, Payments, Offers, Reviews, Reciepts - подходит для большинства рекомендательных задач - глубина данных 1– 3,5 года — можно изучать как краткосрочные, так и долгосрочные взаимодействия T-ECD универсален и применяется от базовой коллаборативной фильтрации до сложных мультизадачных моделей последовательных и графовых рекомендаций. Можно использовать целиком и по отдельным доменам. 🟠HF: https://huggingface.co/datasets/t-tech/T-ECD @ai_machinelearning_big_data #AI#LLM

Hashtags

Parallel Experiments

@LinghaoCh · Post #938 · 19.04.2025, 05:31

https://arxiv.org/abs/2305.18290#llm#ai 今天深入学习了 DPO,再次感叹扎实的数学功底对 AI/ML Research 的重要性…… 原始的 RLHF 是用 pairwise human preference data(A 和 B 哪个更好)去训练一个 reward model,然后用 RL 来训练主 policy model,objective 是 minimize negative log likelihood + regularization(比如 PPO 就是通过新旧 policy 之间的 KL Divergence 来做 regularization)。这样的缺点在于 RL 是出了名的难搞,而且还需要一个 critic model 来预测 reward,使得整个系统的复杂性很高。 DPO 的思路是,观察到 RLHF 的 objective 本质上是 minimize loss over (latent) reward function,通过一番 reparameterization 等数学推导,重新设计了一个 minimize loss over policy 的 objective,绕过了中间这个 reward model,让 gradient update 直接增加 policy model 生成 winner response 的概率并降低 loser response 的概率,大幅简化了流程。 拓展阅读: - KTO: 更进一步,不需要 pairwise comparison,只用对 individual example 的 upvote/downvote 也可以学习到 preference。 - IPO: 解决 DPO 容易 overfit 的问题。

Hashtags

GeekPlux Lab

@geekplux_lab · Post #1600 · 20.06.2025, 02:50

Andrej Karpathy 这个 speak 太值得一看了,刚开始三分钟就被镇住。以后唯一的编程语言将会是英语,LLM 会成为新的 LLM OS。还没看完已经记了一些笔记 #AI#LLM https://www.youtube.com/watch?v=LCEmiRjPEtQ

Hashtags

GitHub Trends

@githubtrending · Post #15142 · 14.09.2025, 11:30

#python#agents#ai#llm#mcp You can access a large collection of ready-to-use AI agent projects and tutorials that help you build smart applications like chatbots, research assistants, and automation tools using popular AI frameworks such as LangChain, OpenAI Agents SDK, and Agno. This collection includes simple starter agents, advanced multi-agent workflows, and tools with memory and document understanding. It also offers step-by-step setup instructions and video tutorials to help you learn quickly. Using these resources saves you time and effort in creating powerful AI apps, making it easier to develop, test, and deploy AI solutions even if you are new to AI programming. https://github.com/Arindam200/awesome-ai-apps

Repositorio data science

@repo_science · Post #4077 · 22.03.2024, 04:13

#book#llm#ai 🤑 Building, Training and Hardware for LLM AI: A Comprehensive Guide to Large Language Model Development Training ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----

Hashtags

GitHub Trends

@githubtrending · Post #14999 · 27.07.2025, 11:30

#python#agents#ai#anthropic#llm#openai#python You can use this Cookbook to quickly add ready-made AI code snippets to your projects, saving you time and effort in building AI systems. It offers practical tutorials and resources to help you learn AI development, start freelancing, or get expert help on your AI projects. Joining the free community can support your learning, and the GenAI Launchpad helps you build AI applications faster. This means you can develop real-world AI solutions more easily and grow your skills or business with guidance from an experienced AI engineer. https://github.com/daveebbelaar/ai-cookbook

GitHub Trends

@githubtrending · Post #15203 · 07.10.2025, 11:30

#python#agents#ai#framework#llm#openai#python The OpenAI Agents SDK is a Python framework that lets you easily build and connect AI agents—smart programs that can talk, use tools, and work together to solve tasks[2][3]. You can turn any Python function into a tool an agent can use, set up safety checks to control what agents do, and automatically pass tasks between different agents when needed[2][4]. The SDK manages conversation history for you, so agents remember past interactions, and it includes tools to track and debug how agents make decisions[2]. This makes it simple to create reliable, customizable AI helpers for things like customer support, research, or automation, with clear oversight and fast development. https://github.com/openai/openai-agents-python

Machinelearning

@ai_machinelearning_big_data · Post #9222 · 10.12.2025, 17:33

⭐️Nous Research открыла исходный код Nomos 1. При размере всего 30B параметров модель набрала 87/120 на Putnam - одном из самых престижных математических конкурсов в мире. Такой результат соответствовал бы 2-му месту среди 3988 участников в 2024 году. Nomos 1 показала 87/120 и восемь идеальных решений. Для сравнения: Qwen3-30B при тех же условиях получила 24/120. Это подчёркивает, что преимущество Nomos связано прежде всего с качеством обучения и данных, а не с тестовой средой. Проверка решений проходила вслепую: их оценивал реальный участник Putnam из топ-200, получивший обезличенные ответы. Задачи решались в тех же временных рамках, что и у участников - по 3 часа на каждую часть. Система рассуждений устроена так: — сначала “workers” решают наиболее сложные задачи и сами оценивают свои решения; — затем этап финализации, ИИ объединяет ответы и выбирает итоговый вариант. ▪HF: https://huggingface.co/NousResearch/nomos-1 ▪Github: https://github.com/NousResearch/nomos @ai_machinelearning_big_data #llm#ml#ai

Hashtags

123•••50•••100•••150•••200•••250•••300•••350•••400•••450•••500•••550•••600•••650•••700•••750•••800•••850•••862863
НазадСтр. 1 из 863Вперёд