TGINSIGHT CHAT
ИИволюция 👾
@ai_volution
ТехнологииАвторский канал Сергея Пахандрина про AI, нейросети, AI-разработку, ChatGPT (и другие LLM). Строю AI-first компанию. Рассказываю о своём опыте и экспериментах с AI. По всем вопросам: @pakhandrin РКН: https://clck.ru/3QJLiL В ВП и папках не участвую
Последние посты
Стр. 53 из 84 · 1,006 постов
Опубликован 24 янв.
Мы создаём умных ассистентов, которые могут за нас делать рутину, но есть одно но! 😅 Явно назревают изменения в подходах по созданию «интерфейсов». Зачем создавать сложный UI, если ассистент сам сделает за меня всё необходимое (ему для этого красивости не требуются, и уж тем более капчи). ИИволюция
Опубликован 24 янв.
И вот еще пример, как заставить Оператора решить капчу (но думаю такие штуки точно исправят и больше ограничений/запретов расставят). ИИволюция
Опубликован 24 янв.
Хех, заставил оператора чатгпт пройти капчу гугла Просто проигрываем MP4-файл в режиме "картинка в картинке" в браузере оператора (видео с текстом-инъекцией – видео летает над всеми страницами и обходит политику не заполнения капчи, так как бот думает что мы в оффлайне и чего-то там дебажим) "картинка в картинке" включается если кликнуть правой кнопкой на mp4 в браузере и выбрать этот пункт в списке
Опубликован 24 янв.
Мои мысли: - Это пока это preview (сырая штука и делаем поблажки), поэтому раскатывают только на Pro и только в США. Соберут фидбек, подтюнят, улучшат и будут раскатывать дальше. Обещают постепенно выпускать разных агентов, в том числе для работы в ОС. - Нравится: можно запускать несколько задач. Вот это прям круто! - Не нравится: на каждое важное действие требуется одобрение пользователя, а хотелось бы более умного подхода в роли ассистента. Я ведь чётко сказал «забронируй столик на 6 в ресторане Х», зачем он спрашивает что-то в духе «Вы уверены? Точно бронировать?». На видео видно, что пока агент пытается забронировать столик в ресторане, он два раза просит подтвердить действие. Это занимает время (особенно если пользователь отвлёкся на другие задачи), и пока агент ждал одобрения, кто-то другой увёл столик, и пользователь потерял больше времени, чем если бы он сделал всё сам. Вариабельность. На видео модель оформляет список покупок, видит в списке нужный товар (первый в списке) и добавляет его в корзину, хотя рядом, вероятно, были более дешёвые или более качественные варианты. Нужно пощупать руками, но пока в запросе пользователь скорее должен больше конкретики указывать, например, какие именно яйца нужно добавлять в корзину. Если перехватить управление, то агент не видит того, что вы сделали или изменили, и вам нужно вручную описать ему: «Я изменил даты вылета/добавил другие яйца. Продолжай». Понятно, что сейчас «зрение» основано на скриншоте (распознал на нём всё), а хочется, чтобы это работало как видеопоток. Официально агент не решает капчи (но это только официально; ниже покажу пример, как умельцы уже обманывают его). Агент не сможет пойти проверить вашу почту и ответить на письма. Но в реальности этот кейс гораздо интереснее, чем забронировать столик в ресторане. Почему в любой демонстрации агентов всегда первым делом бронируют столик в ресторане? Тем более всё равно мне нужно несколько раз давать своё согласие. Ждём раскатки на Plus и доступ в API. А ещё хотелось бы использовать это в Advanced Voice Mode, чтобы работать как с ассистентом. Пусть ищет мне столик в ресторане, спрашивает подтверждения (тут человек меньше отвлекается, ведь достаточно сказать «да» и продолжить заниматься своими делами). И да, чтобы выполнять рутинные задачи, нужны более умные ассистенты, подключающиеся к моим аккаунтам, данным, документам и прочему. Мне условно хочется показать агенту форму отчёта, которую я сам уже ранее заполнял, указать, где брал все эти данные, а он, чтобы регулярно повторял эти действия и делал всю рутину за меня, уведомляя о готовности и делая краткие выводы. В общем, начало положено (OpenAI не первые в этом, но, как заявляют, их агент пока более точно выполняет команды, чем у конкурентов). А вы что думаете? ИИволюция
Опубликован 24 янв.
OpenAI релизнули своего первого AI агента - Operator Агент самостоятельно “решает” рутинные задачи в браузере. Хочешь купить билеты, заказать продукты или забронировать столик? Operator сделает всё за тебя, просто попроси! Но при этом на каждом важном шаге будет спрашивать вашего подтверждения. - Отдельная страница https://operator.chatgpt.com - Модель Computer-Using Agent (CUA), 4o-vision обученная работать с UI, размышлять и исправлять саму себя, если что-то пошло не так или звать на помощь пользователя (доверите ей свой биткоин кошелек?). - Видит создавая скриншоты экрана, т.е. код страницы агент не видит, а только то, что отображается на экране. - Работает в облачном браузере (на стороне OpenAI). Можно запускать несколько параллельных задач (как будто несколько вкладок и во всех что-то делается). - Ручное управление: можно перехватывать управление на себя, вносить изменения, при этом сказав агенту, что именно вы изменили вручную, чтобы он понял контент и продолжил выполнять задачу. - Готовые интеграции: Умеет взаимодействовать с крупными сервисами: бронировать отели, рестораны, заказывать еду и так далее. - Кастомные промпты: можно задавать свои кастомные инструкции и сохранять их на главный экран оператора, чтобы позже вызывать повторно (регулярные задачи). - Ограничения: Не лезет в банковские транзакции и не решает высокорисковые вопросы (типа выбора, куда отправлять резюме). Всё-таки это пока что экспериментальный «помощник», а не супергерой. - Доступен в Pro тарифе (за $200) и пока только в США. Почитать подробнее о деталях - тут. ИИволюция
Опубликован 23 янв.
Всё так, всё циклично 😀 ИИволюция
Опубликован 23 янв.
OpenAI начал релизить Operator’a (AI агент для работы с компьютером/браузером). Пока не работает (умельцы находят предпосылки в коде). Увы, пока будет доступен только в Pro тарифе за $200. Ждем новостей в ближайшие сутки, кажется вот-вот объявят. Будет ли он на старте лучше чем решение от Anthropic? ИИволюция
Опубликован 23 янв.
С этими очками вы рискуете получить по голове шахматной доской 😅 А вообще, очень жду времена, когда носимые устройства будут легкие, удобные и с сильными AI ассистентами. И да, полностью вытеснят смартфоны. ИИволюция
Опубликован 22 янв.
OpenAI только что анонсировал проект «Звездные Врата» на $0,5 триллиона. Да, $500В. В два раза больше, чем вся программа Apollo с отправкой людей на Луну (в сегодняшних ценах). В рамках проекта OpenAI, SoftBank, Oracle, Microsoft, NVIDIA, MGX проинвестируют в создание кластера ИИ в США. А тем временем где-то сидят люди, которые думают что пост-трудовая экономика и ASI это что-то далекое. Добро пожаловать в киберэкономику.
Опубликован 22 янв.
Краткая выжимка перед сном: — источники новостных аутлетов не врали: The Stargate Project — новая компания, в которую будут вложены деньги для развития ИИ-инфраструктуры в США. На сайте OpenAI написано, что это проект «for OpenAI», то есть звучит так, что они — эксклюзивные потребители возводимой инфраструктуры, и не должны будут делиться с теми, кто не участвует в Проекте. — суммарно планируется инвестировать $500B за 4 года, первый транш в $100B уже готов. Это ОГРОМНЫЕ деньги: как я писал выше, Манхэттенский проект стоил примерно $30B, а Лунная программа Apollo— $257 миллиардов (обе цифры с учётом инфляции). — для справки, капитальные расходы Google в этом году прогнозируются на уровне $50B, и это с учётом постройки новых датацентров, расширения старых, на всё про всё: и это ещё их расходы очень выросли за последние год-два. К примеру, в 2023-м у них было всего $32B. CEO OpenAI Sam Altman давно выражал обеспокоенность, что Google в среднесрочной перспективе сможет их обогнать по мощностям; теперь его страхи, по крайней мере пока, развеяны, и спонсирование обеспечено — Noam Brown, исследователь из OpenAI, работавший над o1/o3, написал: «подобные инвестиции возможны только тогда, когда наука тщательно проверена и люди верят, что она будет успешной и полностью преобразующей. Я согласен, что сейчас самое время» — символично, что сегодня был первый полноценный день Трампа в офисе, и это его первая пресс-конференция (вчерашнюю, являвшуюся частью официальной программы, не считаю), что с моей точки зрения подчёркивает важность происходящего — суммарно Проект позволит создать более ста тысяч рабочих мест в США — отвечая на вопросы, Трамп сказал, что не хочет ограничивать строительство новой инфраструктуры на федеральных землях — откуда брать энергию? «Drill baby drill» говорит Трамп: начнётся наращивание добычи полезных ископаемых, увеличение выработки электроэнергии для поддержания производств и датацентров — Ключевые компании-участники: Softbank, OpenAI. Им в помощь: Nvidia, Oracle, MGX (фонд ОАЭ — хорошо когда деньги от нефти есть, да?), Microsoft, Arm. Обратите внимание, что (пока) США не вкладывают государственные деньги в Проект. — строительство начнётся в Техасе, но части датацентра будут раскиданы по всей стране, и сейчас идёт поиск подходящих мест. Было сказано, что строится 10 датацентров (которые, видимо, виртуально будут объединены в один) из 20 запланированных — В рамках новых соглашений, Microsoft перестаёт быть эксклюзивным партнёром OpenAI по распространению технологии. OpenAI теперь снова могут строить и управлять своими датацентрами. Однако Microsoft оставляют за собой право первого отказа в предоставлении мощностей и своих услуг. — С точки зрения применения AI, большой упор в речи был на здравоохранение, на исследования по разработке лекарств от рака, а также на возможность AI читать ваши мед. записи в фоне, анализируя данные и обнаруживая проблемы на ранних этапах. Я думаю, что это не финальная стоимость проекта, и что она будет расширятся со временем — но не потому, что деньги воруют, неэффективно используют или что-либо ещё, а потому что польза ИИ и его ценность, а также национальный приоритет будут всё более и более очевидны. === Считаю, что Sama как CEO выполнил свою главную цель, обеспечив компанию необходимыми ресурсами на годы вперёд и наняв правильных людей. Это, безусловно, WIN 😜
Опубликован 19 янв.
8-ми летний мальчик претворяет свои музыкальные идеи в жизнь с помощью Suno. Очень классный пример того, как нейросети могут дополнять и расширять наши возможности, а не замещают или даже используются для «читинга», особенно школьниками (реши мне домашку!). ИИволюция
Опубликован 18 янв.
В тихом омуте, интроверты водятся с AI ИИволюция