TGTGInsightтелеграм анализLIVE / telegram public index

TGINSIGHT CHAT

Заместители

@aideputies

Цех ИИ агентов. Здесь я тестирую цифровых заместителей в разных профессиях. По пути обсуждаем актуальные новости про ИИ агентов простым языком. Добро пожаловать в эру замещения. Запросы -> [email protected].

Абонати2,920Текущи абонати

Публикации199Индексирани публикации

Скорошен обхват26,990Прегледи на скорошни публикации

Последни публикации

Стр. 2 от 17 · 199 публикации

Публикувано 4.05

Прегледай

В гостях на подкастепро AI агентов Друзья, я тут регулярно пишу про агентов. И каждый раз мы с вами затрагиваем какие-то отдельные интересные аспекты. Но, знаю, что многим хочется уже наконец-то разобраться во всем и сразу: - что за ИИ агенты и чем они отличаются от обычных LLM - в чем разница между Claude, ChatGPT, Perplexity, Manus, OpenClaw - риски, сопряженные с агентами - реально полезные сценарии и юзкейсы использования ИИ агентов… и многое другое. Все это мы обсудили с моим старым другом ещё со времен лицея — Лешей Подклетновым, ныне известным как Дизраптор. И засняли для вас в формате видео-подкаста. Я первый раз на таком формате, но прямо кайфанул! Получилось очень круто, местами угарно и, главное, полезно! 💡 Парочку отрывков закидываю вам прямо тут. А полная версия доступна у Леши на закрытом канале Дизраптор Лаб. Там много и другой годноты, аналитики и разборов. Вообще, как вам видео формат? Стоит разбавлять текст периодическими видосиками или вы за классику и лонгриды? Добавлять иногда видео-формат — ❤️‍🔥 Текст и лонгриды рулят — 🤓 Заместители

2,520 views

Публикувано 2.05

Намери подобни Прегледай

Токеновый налог на не английский язык Наткнулся на интересный эксперимент ML рисерчера Aran Komatsuzaki. Он протестировал, насколько модели эффективно используют токены на разных языках. Результаты очень интересные 👨‍🔬 Суть эксперимента Аран взял короткую статью и токенизировал ее на английском с помощью OpenAI токенизатора. Взял это за бейзлайн. А дальше начал переводить статью на другие языки и подсчитывать количество токенов, затрачиваемых разным моделями на тот же самый текст на других языках. Оказалось, что «налог» на не английский язык есть Большинство LLM жрут дополнительные токены на не английском. Например, если вы общаетесь на русском языке с моделями — вы тратите в среднем в 1,5 раза больше токенов! А из всех моделей больше всех токенов ест, сюрприз-сюрприз, Anthropic! Вот куда вылетают ваши лимиты в Claude. Самыми универсальными моделями оказались Gemini 3.1 и Qwen 3.6. Они едят всего на ~23% больше токенов в среднем на не английском языке. Почему так? Токенизаторы — это специальные алгоритмы, которые нарезают язык на «кусочки» так, чтобы LLM обрабатывала язык наиболее эффективно. В идеале токенизатор разбивает слова на корни, приставки, суффиксы и тд. То есть наследует «структуру языка». И тогда однокоренные слова в векторном пространстве находятся очень близко. Но все усложняется, когда токенизатору нужно научиться эффективно нарезать несколько языков. Особенно таких разных как английский, китайский и арабский. Вот оттуда и растут ноги. Во-первых, большинство популярных LLM родом из США. Поэтому когда модель всячески оптимизируется — это делается на бенчмарках на английском языке. Соответственно, так или иначе английский токенизируется лучше всех. Но есть и во-вторых. Разные языки имеют разную «емкость». То есть разные языки могут вместить разное количества смысла в одно и то же количество слов/символов/токенов. И это, кстати, одна из причин, почему китайский язык даже у «англоговорящих» моделей подвержен наименьшему «налогу». Китайский очень емкий. Интересно было бы посмотреть такую эффективность токенизации для русского матного 😈 У этого есть цена Не даром это назвали «налогом». Ведь такая неэффективность буквально выливается в повышенные расходы и в уменьшенную точность моделей на не английских языках. 1. Меньше информации влезает в контекстное окно. 2. Больше токенов тратится, чтобы обработать тот же «смысл». 3. Дольше обрабатывается запрос. Не дай бог модель под капотом начнет «думать» на хинди. Абсолютно бесполезное сожжение 3х большего количества токенов. Лайфхаки будут? 😬 Избежать «налога» крайне сложно. Он зашит на этапе обучения модели. Так что не то чтобы есть много лайфхаков. 1. Самое простое - говорите с моделью на английском языке. 2. Если говорить на английском не можете, как минимум просите модель размышлять на английском. Это сэкономит невидимые для вас токены. 3. Можно пробовать приколюхи типа caveman. Скилл, который заставляет модель общаться, как пещерный человек. 4. Ну и самый хитрый вариант — настройте агента-переводчика на базе Gemma. Gemma 4 отлично говорит на большинстве языков. Она маленькая и влезает на любой комп. Сделайте маленького сабагента, единственная задача которого быть переводчиком между вами и англоговорящей моделью. Таким образом самую расходную часть мы кладем на плечи локальной бесплатной модели. #ИИстатья Заместители

3,180 views

Hashtags

#иистатья

Публикувано 30.04

Намери подобни Прегледай

Manus релизнули Cloud Computer — как OpenClaw, но для людей Индустрия продолжает двигаться к ИИ агентам, которые могут выполнять работу 24/7. OpenClaw открыл шкатулку Пандоры, OpenAI с их Workspace Agents быстро подхватили. Но, похоже, Manus опять сделали красиво! Первопроходцы в теме персональных агентов с двух ног влетают в гонку 💪 Cloud Computer до безобразия прост и прекрасен: - это, судя по всему, обычная персональная ВМка, но работает из коробки без геморройной настройки - управляется она полностью агентом Manus - на ней же можно разворачивать сайты и поднимать базы данных — естественно, Manus все за вас сделает - можно запускать длительные задачи, закрывать вкладку и жить жизнь, пока Manus пыхтит - агент при этом доступен в мессенджерах, в том числе в телеге, куда он подключается действительно в два щелчка - есть мониторинг загрузки компьютера (как у любой ВМки) - есть возможность командного (в смысле несколько человек) управления «компьютером». Кстати, вспомним, что Manus — универсальный агент. Он умеет в общем-то вообще все из коробки. А значит вам не придется мучаться с настройкой и подключением моделей, скиллов и тд, как в OpenClaw. При этом агент персональный, в отличие от Workspace Agents in ChatGPT, которые созданы для Enterprise и вообще не подразумеваются для обычных смертных. Конечно, у такого удобства есть цена — знаменитый высокий расход токенов Manus и «вендор лок», то есть не возможность подключить любую модель. Выбирать можно только из того, что дает Manus. Итого у нас на арене - OpenClaw - Perplexity Computer - Manus Cloud Computer - Workspace Agents in ChatGPT На удивление, Anthropic ходит вокруг да около, но толком не дает удобного 24/7 агента, которым можно управлять прямо из Claude. Managed Agents — это все еще скорее умные пайплайны. А что там Gemini? А они вот 2-й раз за год переименовали свою облачную ИИ экосистему (Agentspace -> Gemini Enterprise -> Gemini Enterprise Agent Platform), на которой черт ногу сломит и половина функционала все ещё работает в превью через пень-колоду. Похоже, там в команде UX только копирайтеры работают 😁 По ощущениям, Manus нащупали золотую середину между гибкостью и коробочностью решения 📈 Рефералочку в Manus на 500 кредитов оставлю тут. #заместители Заместители

2,230 views

Hashtags

#заместители

Публикувано 28.04

Прегледай

Flipbook: исследование мира через image generation Как мог бы выглядеть интернет, основанный на моделях генерации изображений. Звучит диковато? На самом деле не так уж дико. Мы с вами привыкли, что обмен полезной информацией в основе своей происходит текстом. Если мы хотим в чем-то разобраться мы гуглим или задаем вопрос в ЧатГПТ. Но сейчас тренд явно смещается в пользу визуального контента. И значит формат взаимодействия с миром через текстовые странички устаревает. Интересную концепцию представили три до селе не очень известных фаундера: Zain Shah, Eddie Jiao, Drew Carr. Они решили собрать концепт браузера, где весь интернет — это непрерывно генерируемый поток изображений. И назвали его Flipbook. Например Я сгенерил в GPT Image 2 картинку старой Москвы (по поводу исторической достоверности отправляйте жалобы дяде Сэму 😁) и закинул в этот "браузер". В его парадигме я просто отправил "запрос" на поиск, некую исходную точку своего исследования. А дальше я могу нажать на абсолютно любой элемент изображения: площадь, здания, верфь и тд. И в ответ браузер: • соберет информацию об объекте • сгенерирует изображение с описанием / объяснением объекта • прицепит его в некий граф, как дочернюю страничку от оригинальной картинки старой Москвы. То есть вместо HTML страничек интернет превращается в граф изображений, которые можно сразу превращать в поток видео и текста. Пока все еще ничего не понятно... Подумал я когда потыкал. Но потом я вспомнил одну интересную тему, которую мы разминали на подкасте с Дизраптором на этих выходных (как выйдет — будет отдельный анонс): "а что будет с интернетом дальше, когда ИИ агенты станут выполнять всю скучную работу?" Большинство действий, типа поиска информации, онлайн шоппинга, работы с любыми сервисами — все будет выполняться через общение со своим маленьким зоопарком агентов / или 1-м персональным агентом. Умрет ли тогда привычный нам интернет? Вряд ли. Но поменяется точно. И Flipbook явно нащупали что-то. Разовьем идею Да, просто картинок маловато, согласен. Но представим, что рядом с уже привычным текстовым окошком ChatGPT или Claude — появляется второе окно. В нем идет непрерывная генерация визуала для всей информации, которую вы обсуждаете с агентом. И это не абстрактные картинки-заглушки. Это информативные графики, поясняющие иллюстрации, видео-разборы. Сейчас браузеры пытаются это делать смешиваю поисковую выдачу с картинками и видосами с ютуба. В будущем же — это превратится в единый непрерывный, персонализированный и интерактивный видео-поток / виртуальную реальность (в будущем эти понятия вполне себе могут слиться). Вы сможете в любой момент ткнуть на картинку и получить уточнение/детализацию/развитие идеи по объекту. А ваш агент в чате сбоку получит дополнительный контекст и сопроводит ваш "тык" короткой текстовой справкой или даже сразу предложит какое-то действие. Рабочий сценарий? Легко. Виртуальный "рабочий стол". Рабочие процессы визуализируются в реальном времени: • данные летят по пайплайнам • ваше оборудование работает • ваш автопарк ездит по маршрутам • в конце концов, работает ваша армия агентов! Ведь, не будем забывать, что в ближайшем будущем каждый из нас будет делегировать большую часть работы своим ИИ-коллегам/подчиненным. А как известно, смотреть можно вечно на три вещи: огонь, воду, и как работают твои ИИ агенты 👀 В любой момент вы можете нажать на любой процесс и для вас сгенерируется информация по процессу, подтянется статус по нему и предложатся действия. Самое крутое? Вашим разработчикам никогда не придется заранее генерировать этот мир и все эти живые виртуальные дашборды для вас — все они будут генерироваться в риалтайме лично для вас и обогащаться данными из ваших БД. Уже сейчас GPT Image 2 может "думать" и генерить весьма детальные и осознанные изображения, наполненные текстом и данными. Дальше будет только лучше. В общем, весьма интересный концепт. Единственное, что непонятно, откуда мы возьмем столько железа и энергии, чтобы крутить все эти генеративные модельки 👌 А вы как видите будущее веб-браузинга? Заместители

2,000 views

Публикувано 22.04

Прегледай

Релизнули Workspace Agents в ChatGPT Помните, я буквально недавно писал о том, что до AI-коллег остался 1 чисто инженерный шаг. OpenAI его, похоже, сделали 🧐 Выглядит так, что попали в яблочко по всем пунктам: - Агенты настраиваются чисто промптами в удобном интерфейсе - Прикручиваются тулы и скиллы = бесконечная гибкость - Крутятся в облаке и 24/7 проактивны - Можно шарить созданных агентов со всей командой - Можно добавить их в чаты мессенджеров как OpenClaw (скорее всего там и подсмотрели). Агента можно просто тегнуть в чате и закинуть вопрос/задачу В отличие от рутин в Клоде и Managed Agents от Anthropic — OpenAI собрали все воедино в одном месте и сделали это удобно. Посмотрим, пройдут ли проверку временем — дьявол будет в деталях: - что с безопасностью - насколько сложно управлять доступом к самому агенту и к управлению им, если он торчит в канал Слэка - как управляется память и контекст агента (чтобы он не впитывал все подряд из всех чатов) - сможет ли он в облаке выполнять более сложную работу (программировать аппки, создавать документы и работать с файлами) или это будет в основном умные говорилки с контекстом По заверениям OpenAI - все эти вопросы закрыты. Все будет в лучшем виде. Если на практике все будет так же гладко, как на бумаге — это будет имба 🔭 Доступно пока в превью для бизнес и образовательных подписок. Заместители

2,140 views

Публикувано 22.04

Намери подобни Прегледай

Google анонсировал пятидневный интенсив по вайбкодингу AI агентов 5-Day AI Agents: Intensive Vibe Coding Course With Google.Это уже третья пятидневка в серии, которую Гуглойды проводят раз в полгода. Они уже делали интенсив по LLM и по агентам — оба были шикарными. В этот раз, похоже, объединили две темы: вайбкодинг и разработку агентов с акцентом на доведение до прода. И давайте оставим инфоцыганам, разбираться, как моднее это называть «вайбкодинг» или «агентная разработка». Главное — Гугл делает эти курсы хорошо, очень доступно даже для новичков и собирает в них всегда самую актуальную информацию. Так что это рекомендация отдуши 🫶 А тем, кто сделает финальный проект — дадут сертификат. Бронируем даты в календарях: 15-19 июня 2026. Регистрируйтесь заранее. Регистрацию обычно закрывают немного заранее до начала курса. В последний день не получится запрыгнуть. Содержание интенсива на инфографике 😉 Fun fact: вчера я понял, что вышла новая GPT Image 2, когда сгенерил эту инфографику и прибалдел от качества 😁 #ИИученьесвет Заместители

2,640 views

Hashtags

#ииученьесвет

Публикувано 21.04

Прегледай

Господа, это новый уровень. Ищите во всех газетах. Я вам сфоткал на всякий случай. Заместители

2,100 views

Публикувано 19.04

Намери подобни Прегледай

Новый Codex моей мечты На днях выпустили обновленный Codex. Главная фича — управление компьютером. Работает так же, как и все подобные сервисы сейчас — скриншотит экран, оценивает, и нажимает мышкой или выполняет bash команды, если позволяет приложение. Поэтому работает медленно, но достаточно уверенно. Например, я запустил его играть в шахматы со встроенным алгоритмическим соперником во встроенных шахматах на маке. Просто наблюдать было скучно — поэтому попросил по пути учить меня играть в шахматы. Я залип — реально классный опыт, можно так учиться играть в шахматы 👀 Что еще новенького подъехало • Интерфейс стал подозрительно напоминать Claude Cowork / Code, хоть и в своем дизайне и со своими деталями. А как так получилось?! 😁 • Появилась возможность открывать созданные документы прямо внутри Codex с наложенным поверх дока окном для дозапросов Кодексу • Появилась общая память сквозь проекты и запросы. Она знает, над чем вы в целом работаете и чем живете. И благодаря этому Codex проактивно в новом окне предлагает решить какую-то задачу из действительно насущных согласно его воспоминаниям • Кодексу добавили 90 новых плагинов. Среди них и те, которыми я лично постоянно пользуюсь в Claude, что и делает его для меня супер удобным: Atlassian и Microsoft Suite. Но давайте обсудим слона в посудной лавке Да, Codex стал удобным, я бы сказал во многом он догнал Claude Code. Но главная соль не в этом. Главные конкурентные преимущества, которые вы реально почувствуете после перехода с Claude вот какие: 1. Codex ЭКОНОМНЫЙ. Это просто песня. За 1 сессию я завайбкодил целую мини веб игру, а потом полностью портировал ее в локальную версию на Swift (нативный язык приложений для MacOS) — и ни то что, не уперся в лимиты, я даже не потратил 1 полное контекстное окно! Хотя effort стоял на high. 2. Codex не делает мне мозг постоянными вопросами "а можно эту команду выполню", "а еще вот этот файл прочитаю", "а вот тут 1 строчку прочту". Да, конечно, это настраиваемо в Claude — но это геморрой и по дефолту работает не так. А в Кодексе по дефолту (так и называется default permissions) Codex спросил меня в процессе разработки целый игры буквально "можно убью этот процесс?" и "можно запущу созданное приложение" — это реально важные опасные операции, где реально нужен аппрув. Таким образом в Кодексе я снова почувствовал магию агентной разработки. Почувствовал, что я реально делегировал задачу, а не сижу за игровым автоматом, где мне нужно тыкать кнопку "аппрув" на каждый чих. И оказывается, что этих двух преимуществ при прочих равных оказывается достаточно, чтобы поселить во мне зернышко мысли "а не пора ли переключаться на Codex?" Ренессанс OpenAI получается ☀️ #Заместители Заместители

2,230 views

Hashtags

#заместители

Публикувано 17.04

Намери подобни Прегледай

Claude теперь дизайнер Сегодня релизнули Claude Design 🎨 Вот, что с ним можно делать: - Можно дизайнить wireframes или прямо живые тыкабельные прототипы интерфейсов - Загрузив в него ассеты/компоненты, можно задать дизайн код - Можно делать красивые презентации, которые прямо оттуда будут выгружаться в PPTX, PDF и тд. - Есть возможность шарить проект с коллегами по организации - Наконец самое важное — можно сделанный прототип сразу передать в Claude Code, чтобы тот доработал его до полноценной аппки. Потыкал своими руками И вот какие впечатления: 1. Работать весьма интуитивно и удобно. Особенно мне зашло то, что все работает в режиме бесконечного канваса, а заметки можно оставлять абсолютно к любому элементу на нем, чтобы Клод точно знал, что вы хотите поправить. 2. Из абсолютно рандомных ассетов (логотип канала, картинка из интернета, free text и текстовое поле) + 1 короткого промпта он сгенерил весьма себе приличный набор логотипов, а потом из них слепил презентацию с анимациями. 3. Claude Design на удивление косячит с текстовым содержанием (возможно, трудности перевода на русский), поэтому лучше текст генерить отдельным заходом. 4. Работает небыстро. На видео я ускорил в 50(!) раз процесс размышления от промпта до фразы "готово". Но под капотом пыхтит новый Опус 4.7. А он очень дотошный и любит все перепроверять. 5. Качество самого дизайна можете оценить сами. На мой вкус весьма хорошечно 👍 Так… а куда это все движется? А движется это, судя по сливам, к тому, что Anthropic скоро выпустят свой аналог Lovable. Скорее всего Claude Design — это всего лишь промежуточный шаг. #Заместители Заместители

2,220 views

Hashtags

#заместители

Публикувано 16.04

Прегледай

AI ассистенты созрели и переходят на следующий уровень Технология AI агентов заходит на новый виток развития. Мы прошли стадию принятия (если вы еще нет — то пора 👀) того, что AI стало продолжением рук и мозга в выполнении ежедневных офисных задач. Вот так уже сейчас выглядит день продвинутого юзера. Каждое утро вам от агента приходит "брифинг" на красивом дашборде, где расписаны: • все ваши приоритеты • план на неделю и на день • апдейты, которые произошли в чатах, на почте и в гитхабе, пока вас не было • ссылки на тикеты в Jira • и даже заготовки каких-то материалов. А дальше вы просто говорите тому же AI агенту: "напиши код по задачке 1 из этого брифинга, подготовь документы к звонку, создай встречу, и закинь апдейт в Jira". А он, из-за того что сильно погружен в контекст — делает это все ну очень хорошо 📈 Остался один необходимый шаг до прекрасного будущего Что остается? Правильно — автоматизировать этот процесс. По сути, роль человека в этом процессе начинает сводиться к проверкам результатов и тонкой донастройке. Да, пока что AI ошибается, генерит много слопа и переодически ходит не туда и делает не то. Но и это уже решается всякими валидациями. При желании ошибки сводятся к минимуму. Оставался последний рубеж — неготовность агентов к энтерпрайзу. Все было слишком сырое, небезопасное, немасштабируемое и сложно настраиваемое. Но пока мы осваивались со всем, что я описал выше — технология дозрела. И вот что уже у нас есть • OpenAI выкатили апдейт своего Agents SDK, где представили, по сути, enterprise-ready фреймворк для создания агентов с возможностью упаковывать агентов в сендбоксы, а секреты выносить за его пределы, чтобы снизить риски промпт иньекций. Фреймворк сам разруливает архитектуру взаимодействия агента с тулами, скиллами, файловой системой, исполнителем кода, веб серчем. Ощущается, как они вдохновлялись OpenClaw, создателя которого они недавно впитали 👍 • Anthropic выкатывают Managed Agents — решение, где в обычном UI простым текстом можно настроить повторяющийся агентный процесс. Он будет запускаться по расписанию, может работать часами и агенты могут взаимодействовать друг с другом. Естественно, тоже в выделенных сендбоксах. • А еще Anthropic выкатил так называемые "рутины" — этакие задачи по расписанию на стеройдах. Они будут выполняться вне зависимости от того, включен ли у вас комп — полностью в облаке, да еще и не просто по расписанию, а по настраиваемым триггерам. Преимущество перед Managed Agents — настраиваются все также удобно из Claude Code. Недостаток — работают только с задачами Claude Code, не работают в Cowork. То есть расчет на задачи типа регулярных автоматических код ревью и тд. • OpenClaw тоже продолжает расти и развиваться. Ссылку на конкретный релиз давать нет смысла — апдейты льются сообществом каждый день. Но сейчас лобстера тоже можно упаковать в сендбокс, настроить вайтлисты для доступов, лобстер умеет сам создавать под задачу саб-агентов, а память у него теперь может быть облачная, что позволяет ее делить между сразу несколькими агентами. Есть и другие провайдеры и опенсорсные проекты. Но здесь речь о мастодонтах, которые поведут за собой тысячи компаний-клиентов в это агентное будущее. Что дальше? AI процессы enterprise-уровня за последнюю неделю стали реальностью. Причем такие воркфлоу уже можно создавать без знания кода и без необходимости соединять десятки стрелочек в n8n. Процесс описывается агенту — а он сам все настраивает. Дальше допилить такие воркфлоу во вполне себе полезных виртуальных сотрудников — чисто инженерная задача. Все необходимое уже есть. У таких работяг будет очень богатый контекст, они будут мультизадачны и будут трудиться действительно 24/7 работая над большими задачами. Им можно будет написать прямо в Slack, просто тегнув в рабочем чате с коллегами. И хоть общаться вы будете как будто бы с одним "виртуальным коллегой", под капотом будут трудиться десятки его клонов. Напоминает, кстати, концепцию из недавнего сериала Pluribus. А вы хотели бы себе в команду такого коллегу? 😎 Заместители

1,970 views

Публикувано 14.04

Прегледай

Вот вроде отдельного длинного поста не стоит, но коротко невозможно не отметить Тыкаю Gemma 4 в Google AI Edge Gallery — приложении, по сути, просто для демонстрации способностей модели. Ну красотища! - понимает изображения и текст на изображениях - понимает аудио - пишет код - умеет пользоваться скиллами - мультиязычная, легко понимает русский Просто летает и работают полностью локально на телефоне! 😨 Планка обычной оффлайн болталки преодолена с лихвой. Эту модель можно использовать как очень простой, но полноценный заменитель «мозга» вашего AI агента, когда у него нет доступа к сети. Или просто для экономии. Полный опенсорс, весит всего 3.6 GB. Вот так медленно мы подбираемся к моменту, когда AI агенты будут прямо у нас в смартфоне. Я надеюсь, что Apple встроят эту модель в IPhone локально вместо бедолажного Apple Intelligence 😁 Заместители

1,680 views

Публикувано 13.04

Прегледай

Claude Code уже не торт Такие заголовки разлетаются по сети. Действительно ли модельки Claude сдают? Да, но не так как вы думаете 😳 Клод коду выдвигают целый список обвинений по деградации перфоманса: - существенно хуже следует инструкциям - ломает работающий (написанный ранее «старым хорошим» Клодом) код - ухудшился перфоманс в комплексных мультишаговых задачах. И все это длиться якобы примерно с февраля/марта 2026. Какие ваши доказательства? Первое. Самое «фактурное» и похожее даже на мини исследование, что есть — вот этот тикет. Тикет завела Stellar Laurenzo, senior director of AI в AMD (тот самый АМД, который делает процессоры). Если верить тикету, то это анализ на основе ~6800 сессий с клод кодом. И опять же если ему верить, то цифры следующие: - Количество символов, которые Клод в среднем тратил на «размышления» снизилось с ~2200 до ~600 (-73%) - появилось регулярное (~10 раз в день) нарушение стоп-хуков. Это правила, которые выставляют сами юзеры и которые тормозят Клод код от нежелательных действий - анализ ~18000 пользовательских промптов показал, что недовольство юзеров Клодом внутри промптов выросло с 5.8% до 9.8% - Клод стал на 70% меньше изучать контекст перед внесением правок (раньше соотношение количества чтений файлов к внесению изменений в файл было 6.6, стало — 2.0) - Клод стал чаще переписывать файлы с нуля, что проще, но ведет к большему количеству ошибок (раньше он дела так в 4.9% случаев, теперь — в 11.1%) Второе. Это жалобы юзеров в соцсетях. Реддиторы массово подтверждают проблему. А что Антропик? За него ответил Борис Черный, руководитель Claude Code. И знаете что? Он в общем то во многом подтвердил, что Клод коду подрезали крылья, чтобы экономить токены. Вот что он говорит: Во-первых, 9 февраля массово запустили adaptive thinking для Opus 4.6. Модель сама выбирает, сколько тратить токенов на размышления (thinking budget). Во-вторых, с 3 марта для Opus 4.6 выставили по дефолту effort=85. Назвали это «Medium effort». Но! Вы можете исправить обе настройки в settings.json вашего Claude. Вот две строки для этого: CLAUDE_CODE_EFFORT_LEVEL=max CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 Так элодеи или нет? В общем-то, если и можно обвинить Антропик в чем-то, так только в том, что коммуницировали они изменения не очень прозрачно. Но теории типа «старые модели специально затупляют перед релизом новых, чтобы новые выглядели на их фоне лучше» — выглядят чистой конспирологией. Антропик пытается снизить косты на инфраструктуру — прямой путь к этому снижать количество обрабатываемого контекста, то есть снижать thinking. А это абсолютно логично ведет к деградации перфоманса. Кому нужен старый перфоманс — поставят себе максимальный effort у модели. Изменения нацелены на широкую аудиторию, чтобы порезать ситуации, когда юзер бездумно использует Opus 4.6 с настройками «полный фарш с extended thinking» для того, чтобы узнать погоду. А для компаний это урок — LLM такой же софт как и любой другой. Нужно внимательно следить за изменениями и релизами, делать тесты после обновлений. Ведь, говоря о прозрачности, провайдеры LLM сейчас оставляют за собой ооочень большую свободу изменений «под капотом». Поэтому юзеры пользуются ими практически вслепую, на доверии. Не best practices как-то 😐 Заместители

2,080 views

123 4•••10•••16 17

← ПредишнаСтр. 2 от 17Следваща →