TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #984 · 22.05

Посмотрел у Rozetked краткую выжимку с презентации Google IO, где они 90% времени хвалили свою нейросетку Gemini. И что подумал: задач для просто болтовни с ИИ в чате не так много. А вот научить робота делать за тебя всякую рутину это уже гораздо интереснее. И тут огромное преимущество Гугла над OpenAI — у Гугла уже полно очень популярных сервисов, на которые можно навесить ИИ-функциональность. В презентации так и показывали, например почта с нейросеткой — Gemini залезает в каждое ваше письмо и даже читает вложения, а затем, например, может вам сказать, сколько вы денег (по чекам в почте) потратили на определённую категорию товаров за какое-то время. Ну, пример немного вырожденный, но если нейросетки за нас научат надёжно пользоваться веб-сервисами и приложениями, это будет по-настоящему полезным применением. Я бы хотел рассказать экселю обычным человеческим языком, какая мне нужна таблица, и чтобы он её сделал. Ребята из GigaChat, тем временем, показали мне function calling — как раз попытку поженить машинный интерфейс и языковой процессор. И мне даже хочется попробовать сделать что-то простое. Можете накидать идей в комментах. Нужен какой-то сервис с API, который я смогу вызывать, либо другая формализованная машинная работа. И к ней какая-то рутинная задача, которая может быть создана из текстового запроса на естественном языке. Что бы это могло быть? #dev

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #mobileagents

当前筛选 #mobileagents清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8920 · 01.11.2025 г., 13:25

🆕 Новый сильный GUI-агент: UI-Ins от TongyiLab и RUC Это модель, которая уверенно работает с мобильными интерфейсами и лучше понимает намерения пользователя. Она рассматривает команду как цепочку рассуждений, а не как одно действие, поэтому справляется со сложными задачами стабильнее. Результаты UI-Ins показал 74.1% успешных действий в AndroidWorld. Для сравнения: Gemini 2.5 Computer Use - 69.7%. То есть модель чаще правильно выполняет задачи в реальных интерфейсах. Модель: - пытается понять цель, а не только текст команды - строит несколько вариантов рассуждений - выбирает подходящую стратегию перед действием - адаптируется, если состояние приложения меняется Идет в двух версиях: 7B и 32B. Если вы работаете над агентами, которые должны нажимать кнопки, заполнять формы, открывать приложения и следовать шагам в интерфейсе - UI-Ins стоит добавить в список моделей для тестов. 🤖 UI-Ins-7B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-7B UI-Ins-32B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-32B 📄arXiv: https://modelscope.cn/papers/2510.20286 @ai_machinelearning_big_data #AI#Agents#GUI#MobileAgents#AndroidWorld#LLM