TGTGInsightаналитика telegramLIVE / telegram public index

TGINSIGHT CHAT

ИИволюция 👾

@ai_volution

Авторский канал Сергея Пахандрина про AI, нейросети, AI-разработку, ChatGPT (и другие LLM). Строю AI-first компанию. Рассказываю о своём опыте и экспериментах с AI. По всем вопросам: @pakhandrin РКН: https://clck.ru/3QJLiL В ВП и папках не участвую

Подписчики1.1万Текущее число подписчиков

Постов1,006Проиндексировано постов

Охват46,020Просмотры последних постов

Последние посты

Стр. 6 из 84 · 1,006 постов

Опубликован 11 февр.

Смотреть

Claude Cowork вышел под Windows Windows часто обходят стороной и для него делают в последнюю очередь все новые приложения. И если вы ждали Claude Cowork для Windows, чтобы начать использовать агентный подход не для разработки, а для работы с файлами, ОС и всякими тулами/приложениями, то момент пришел. Кстати, а расскажите, используете ли вы уже Cowork? Для каких задач? Как часто? Скачать можно тут: https://claude.com/download

3,950 views

Опубликован 11 февр.

Смотреть

OpenClaw В этот раз я не стал прыгать в хайповый вагон (видимо, старею😄), и немного пересидел, переждал, пока хотя бы название у проекта устоится, а оно сменилось 3 раза буквально за 1,5 месяца. Да-да, я говорю про OpenClaw, агентный AI-ассистент, который работает у вас локально или на сервере, использует LLM, чтобы делать разные полезные штуки. Пока вы спите, он и отчет соберет, и на письма ответит, и кучу всего сделает. Да и не только пока спите. У него огромная база коннекторов, Телеграм, Ватсап, гугловые сервисы и др., а также куча скиллов, с помощью которых Claw делает для вас что-то полезное. Всё это дико кастомизируемо, можно писать свои скиллы и коннекторы и сделать под себя удобного ассистента. Про OpenClaw разве что только книгу еще не написали. Хотяяя, может и книги уже существуют. Я долго думал, как бы применить его для себя, и вчера решился развернуть его на VPS. Закинул на OpenRouter $10, дал OpenClaw API-ключ и подключил модель kimi-k2.5. Я не стал рисковать своей Claude-подпиской, так как Anthropic за использование OAuth не по назначению банит аккаунты. Но каждый чих, каждое сообщение, сжигали 1–2 цента, и эти $10 быстро таяли. Тогда я решил купить базовую подписку на Kimi за $19/мес, кажется, её мне пока будет хватать. В ней также можно легко создать API-ключ через Kimi Code и использовать без опаски, сами Kimi везде делятся гайдом, как настроить OpenClaw + Kimi. А еще сразу подключил API-ключ от Groq, чтобы можно было голосовые сообщения боту в ТГ кидать, а он бы транскрибировал и понимал, что я от него хочу. Руками часто лень писать или за рулем приходят мысли. К слову, установить OpenClaw достаточно просто (либо просто мне так показалось), у него есть удобный онбординг-процесс при первом запуске, прописываем нужные ключи, подключаем все коннекторы, через которые с ним взаимодействовать, я подключил ТГ-бота под Claw. После старта (у меня в ТГ-боте), Claw знакомится с вами, узнаёт разные детали, имя, где живете, часовой пояс и прочие штуки. При тестировании ассистента я попросил напомнить мне, что в пятницу бассейн у дочери, и Claw, создав напоминание (тупо через cron), также поинтересовался, как звать дочь. И все эти факты запоминает в базу знаний, чтобы потом использовать при общении с вами. И вот как я пока придумал потестировать OpenClaw для своих задач. У меня есть утренний ритуал: заглянуть в разные системы аналитики, изучить, как подрос MRR, proceeds и прочие метрики за вчера. Далее изучаю, как окупаются рекламные кампании. В некоторые дни недели, если вижу аномалии в цифрах, начинаю копать глубже, где-то что-то взлетело или, наоборот, просело. У меня для этого давно написаны разные скрипты или MCP, которые запускаются по запросу через Claude Code. Поэтому хочется, чтобы Claw собирал мне к утру отчет с этими показателями и делал выводы, отдельные аналитические скиллы еще предстоит создать под него. Опять же, лично мне, можно было бы обойтись и без OpenClaw, но хотелось его потестировать и понять, на чём же там дико хайпят. Рокетсайнса там никакого нет, при чём штука очень прожорливая и может легко зациклиться и увести вас в минус. Если используете уже OpenClaw, поделитесь для чего, какие задачи с ним решаете?

3,800 views

Опубликован 8 февр.

Смотреть

Когда случайно запустил Opus 4.6 с включенным extra usage (оплата за токены) + agent teams в режиме /fast

3,940 views

Опубликован 8 февр.

Смотреть

Детали про /fast в Opus 4.6 https://code.claude.com/docs/en/fast-mode

3,760 views

Опубликован 8 февр.

Смотреть

Anthropic запустили Opus 4.6-Fast: теперь модель работает в 2.5 раза быстрее (примерно 100 токенов в секунду), но и стоит в 6 раз больше. У тех, кто использует планы в Claude Code, просто быстрее будет съедаться квота (видимо, и недельная, и 5-часовая). Чтобы включить модель, нужно написать /fast в Claude Code. В твиттере уже начали гадать, мол, что это за оптимизации, а как так, а неужели они используют Groq/Cerebras, или же это TPU от Google такие крутые, что можно в 2.5 раза разогнать. На самом деле я почти уверен, что с точки зрения железа ничего не менялось, и математика тут понятна: можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведёт к быстрой генерации для каждого отдельного пользователя. Но тогда и выручка с единицы GPU падает, и нужно повысить цену для компенсации. Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдаёт в среднем 6000 токенов в секунду на GPU , а при разгоне в 2.5 раза до 250 т/с — падает до 1000 токенов в секунду на GPU. Таким образом количество токенов падает в 6 раз, цена растёт, выручка и маржинальность не меняются. Ждём, пока OpenAI наконец-то запустятся на Cerebras, чтобы давать 150+ токенов в секунду.

3,500 views

Опубликован 7 февр.

Смотреть

Халявные $50 на Opus 4.6 Кстати, я же вчера самое главное забыл вам сказать. Хотел в новость про Opus 4.6 добавить, но вылетело из головы. Антропик раздает халявные $50 на тест Opus 4.6, особенно если хочется Agent Teams потестировать и не влететь по лимитам. Если у вас есть подписка, то смело забирайте свои $50 на тест https://support.claude.com/en/articles/13613973-claude-opus-4-6-extra-usage-promo

3,980 views

Опубликован 6 февр.

Смотреть

Узнаёте себя? 😬

3,830 views

Опубликован 6 февр.

Смотреть

GPT-5.3-Codex: первая модель, которая помогала создавать саму себя Выше рассказал про Opus 4.6, а теперь про вторую половину этой безумной ночи на релизы - GPT-5.3-Codex от OpenAI. Напомню: Anthropic и OpenAI выкатили флагманы с разницей в “минуты”, причём Anthropic дёрнулись первыми на 15 минут раньше оговоренного времени 😆 OpenAI пришлось догонять. GPT-5.3-Codex объединяет кодинг-возможности GPT-5.2-Codex и рассуждения GPT-5.2 в одной модели, которая к тому же на 25% быстрее предшественника. Обучали на NVIDIA GB200 NVL72, тренировка модели в 4 раза быстрее прошлого поколения, новые версии можно катить каждые ~3 дня. А вот размером контекста Сэм Альтман не хвалится, видимо без изменений, чтобы этой ночью не выглядеть в аутсайдерах. Маркетинг решает, у кого больше цифра, ну вы поняли! Хотя как говорят (Сэм говорит), важен не размер цифры, а как ты их используешь 😃 А теперь самое поразительное! OpenAI заявляют, что это первая модель, которая участвовала в собственном создании. Ранние версии GPT-5.3-Codex использовались для дебага собственного обучения, управления деплойментом и диагностики тестов. Т.е. новая модель буквально помогала строить и улучшать саму себя. Звучит как начало рекурсии, а если дать волю своему воображению, то становится страшновато! Бенчмарки: – Terminal-Bench 2.0 (агентный кодинг): 77.3%. Opus 4.6 на том же тесте показал 65.4%, GPT-5.2-Codex - 64.0%. Разрыв серьёзный. – SWE-Bench Pro: 56.8%, рост минимальный, всего +0.4% к предшественнику. – OSWorld-Verified (работа с десктопом, браузером, файлами): 64.7% при 38.2% у GPT-5.2-Codex - вот тут прирост на 26.5 пунктов, приближается к человеческому показателю в 72%. Цена в API пока не объявлена. Для ориентира, GPT-5.2-Codex стоил $1.75/$14.00 за млн токенов, Opus 4.6 стоит $5/$25. Модель доступна в Codex (приложение, CLI, расширение для IDE, веб) на платных тарифах - Plus ($20/мес), Pro ($200/мес), Business, Enterprise. Лимиты запросов удвоили. И тут интересный момент: вход в Codex стоит $20 на Plus, а сопоставимый уровень в Claude Code - $100 на Max (или около того). OpenAI видимо может себе позволить демпинговать и отдавать дешевле. Разработчики уже потестили оба флагмана и вот какая картина. Издание Every.to прогнало обе модели на задачах от простого лендинга до полного интернет-магазина с оплатой: Opus 4.6 набрал 9.25 из 10, Codex 5.3 - 7.5. На самой сложной задаче разрыв максимальный - Opus выдал полный рабочий чекаут, Codex сделал красивый дизайн, но пропустил критичные фичи. Сооснователь Cursor Майкл Труэлл отмечает, что Opus 4.6 лучше на самых тяжёлых задачах. Саймон Уиллисон (авторитет в dev-сообществе, знаете такого?) более сдержан: “обе модели отличные, но и предшественники были отличные, трудно найти задачу, которую старые не тянули, а новые тянут.” На реддите уже набирает обороты тред "Opus 4.6 стал хуже?" Жалуются, что кодинг улучшился, а качество генерации текстов просело. А вы используете опус для текстов вообще? Итог ночи: 2 флагманские модели за минуты друг от друга. Каждый из нас выбирает сам, лучше конечно после тестов и сравнений, и вероятно каждую модель использовать под разный тип задач. Конкуренция работает, кожаные в плюсе. Официальный релиз в блоге OpenAI. Грядёт день (очень-очень рядом), когда тарифы за $200 будут базовыми, а все плюшки будут за $1000 или $2000. Скриньте!

3,750 views

Опубликован 6 февр.

Смотреть

Ждали Sonnet 5, а получили Opus 4.6 TLDR: 1M контекста, 128K выход, adaptive thinking, SOTA на агентном кодинге, бьёт GPT-5.2 на 144 Elo, Agent Teams в Claude Code, Claude в PowerPoint, $5/$25 за млн токенов. Вчера произошло нечто новое для индустрии - Anthropic и OpenAI выкатили свои флагманы с разницей в 20-30 минут. Opus 4.6 и GPT-5.3-Codex в один день. Т.е. релизы не разнесли в разные дни, а намеренно выпустили почти одновременно, чтобы затмить инфоповод. Что нового в модели: - Контекст 1 млн токенов (но с пометкой "бета"). Впервые для Opusов - Выходной контекст 128K токенов вместо 64K (без пометки бета) - Adaptive thinking - модель сама решает, думать или нет и сколько. Старый budget_tokens помечен как deprecated (привет, ultrathink) - Параметр effort с уровнями low/medium/high/max - на low может вообще не включать рассуждения для простых вопросов Бенчмарки: Terminal-Bench 2.0 (агентный кодинг) - 65.4%, на момент релиза лучший, но через полчаса Codex 5.3 показал 77.3%. ARC AGI 2 (абстрактное рассуждение) - 68.8% против 37.6% у Opus 4.5, рост на 83%. GDPval-AA (финансы/юриспруденция) - обгоняет GPT-5.2 на 144 Elo, Opus 4.5 на 190. Humanity's Last Exam (задачи уровня PhD), BrowseComp (поиск в сети), DeepSearchQA (многошаговый поиск) - лидер на всех трёх. Ну и мой любимый, Vending-Bench 2 (модель управляет вендинговым автоматом - закупки, продажи, цены) - Opus 4.6 заработал $8,017, Gemini 3 Pro $5,478, Opus 4.5 $4,967, GPT-5.2 $3,591. Контекст в миллион токенов отдельная история. На тесте MRCR v2 (найди 8 иголок в миллионе токенов) - 76% точности (93% на 256К контекте). Sonnet 4.5 на том же тесте - 18.5%. Нужно тестировать, как минимум пока в Claude Code /context показывает всё те же 200К. Что завезли в Claude Code: – Agent Teams (экспериментальное) - рой агентов, которые работают параллельно, могут общаться друг с другом и координурет их дядька Черномор (тим-лид). Каждый агент занимается своей задачей. Использовать с умом и осторожностью! Расскажу отдельным постом детали. – Auto-memory. Нигде в релизе не увидел, но в CLI точно появилось. Агент записывает важные заметки о проекте между сессиями, особенно когда возникает ошибка, вы указываете на неё и агент запоминает это в память. И небольшой бонус: – Claude в PowerPoint (research preview) - читает лейауты, шрифты, slide masters и генерирует презентации с сохранением брендинга. Что нового в API: – Цена осталась та же - $5/$25 за млн токенов. – Для тех, кто работает с разработкой через API, появился серверный Compaction API (бета). Вместо старой клиентской компрессии контекста теперь можно: задать точный порог срабатывания (от 50K токенов), поставить на паузу после сжатия и дописать важные сообщения, дать инструкции что сохранять при суммаризации, выстроить бюджет суммарных токенов. В ответе приходит детальный usage по каждой итерации. В Claude Code CLI по подписке этих ручек пока нет - там всё тот же авто-компакт с фиксированным порогом и /compact. Детали о релизе в блоге у антропиков. А теперь тестить, тестить!

3,590 views

Опубликован 5 февр.

Смотреть

В Claude Code завезли инсайты Выполните команду /insights и будет вам счастье. Claude Code подготовит для вас большую (нет, даже огромную) веб страничку локально на на вашем диске, где расскажет и покажет как вы используете Claude Code, где у вас сильные стороны, где слабые, что упускаете, что докрутить в вашем флоу использования CC.

4,010 views

Опубликован 4 февр.

Смотреть

Apple выпустила Release Candidate Xcode 26.3 с поддержкой агентного кодинга. Раньше AI в Xcode мог только подсказывать и дополнять код. Теперь Claude Agent от Anthropic и Codex от OpenAI работают как полноценные агенты и могут сами выполнять действия внутри среды. Ты даешь задачу на естественном языке, агент разбивает ее на шаги и дальше работает сам. Он смотрит структуру проекта, создает файлы, пишет код, билдит, запускает тесты, делает скриншоты для проверки результата. Если ловит ошибки, читает логи, правит код и билдит заново, пока не починит. В конце выдает саммари всех изменений. Apple сделала отдельную документацию для разработчиков, оптимизированную под AI-агентов, и поработала с Anthropic и OpenAI над снижением расхода токенов. Подключение в один клик в настройках Xcode. Нужен аккаунт Anthropic или OpenAI, работает как по подписке, так и по API с оплатой за токены. Агенты обновляются автоматически. Можно свободно переключаться между ними в одном проекте. Важный нюанс, агент работает с XCode через MCP. То есть не только Claude и Codex, любой агент с поддержкой MCP можно подключить к Xcode. Apple выложит документацию для этого. В сайдбаре есть транскрипт, видно что агент делает в реальном времени. И в любой момент можно откатить изменения до состояния перед вмешательством агента. Вайб-кодинг теперь официально внутри Xcode.

3,960 views

Опубликован 3 февр.

Смотреть

В Claude завезут генерацию изображений? В коде нашли упоминание команд генерации и редактирования изображений. Но судя по всему, это будет не собственная модель, а партнерская, например от Google. А почему бы и нет? Что-то явно намечается. По слухам, уже сегодня могут представить модель Sonnet 5.

3,950 views

1 2•••4 567 8•••10•••15•••20•••25•••30•••35•••40•••45•••50•••55•••60•••65•••70•••75•••80•••83 84

← НазадСтр. 6 из 84Вперёд →