TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
ИИволюция 👾 avatar

TGINSIGHT CHAT

ИИволюция 👾

@ai_volution

Технологии

Авторский канал Сергея Пахандрина про AI, нейросети, AI-разработку, ChatGPT (и другие LLM). Строю AI-first компанию. Рассказываю о своём опыте и экспериментах с AI. По всем вопросам: @pakhandrin РКН: https://clck.ru/3QJLiL В ВП и папках не участвую

Подписчики1.1万Текущее число подписчиков
Постов1,006Проиндексировано постов
Охват44,800Просмотры последних постов
Последние посты

Последние посты

Стр. 5 из 84 · 1,006 постов

Опубликован 18 февр.

Sonnet 4.6 Недели 2 назад ходили слухи о скором выходе Sonnet 5, но пока нам выкатили Sonnet 4.6. Скорее всего не было потребности выпускать Sonnet 5 раньше обновлений конкурентов и просто придерживают монстра в клетке. Полный апгрейд по кодингу, computer use, работе с длинным контекстом, агентному планированию и дизайн задач. Сразу стал дефолтом в Free и Pro тарифах. Бенчмарки: На 11 из 16 видах тестов Sonnet 4.6 обходит даже старый Opus 4.5. – ARC-AGI-2 (нестандартные задачи): 58.3% против 13.6% у Sonnet 4.5 и 37.6% у Opus 4.5 – BrowseComp (агентный поиск): 74.7% против 43.9% у Sonnet 4.5 и 67.8% у Opus 4.5 – Office tasks GDPval-AA: 1633 против 1276 у Sonnet 4.5 и 1416 у Opus 4.5. – Finance Agent: 63.3% против 54.5% у Sonnet 4.5 и 58.8% у Opus 4.5. – Computer use OSWorld: 72.5% против 61.4% у Sonnet 4.5 и 66.3% у Opus 4.5. – Terminal-Bench 2.0 (агентный кодинг в терминале): 59.1% против 51.0% у Sonnet 4.5. Opus 4.5 чуть выше - 59.8% – SWE-bench Verified (реальные задачи на GitHub): 79.6% против 77.2% у Sonnet 4.5. Opus 4.5 - 80.9% Цена $3/$15 за млн токенов, т.е. осталась без изменений, какая была у Sonnet 4.5. Доступен на всех планах Claude, в Claude Code, API и облачных платформах. Free тир обновили до Sonnet 4.6 по умолчанию. Доступен контекст 1M токенов (бета), но только при оплате по токенам через API и в СС включении трат за токены (в подписке недоступен). Как пишут Антропики, Sonnet 4.6 подходит для большинства повседневных задач: фронтенд, многошаговые задачи, работа с документами и финансовым анализом. Рекомендуют попробовать Sonnet 4.6 с разными уровнями thinking, чтобы найти баланс скорости и качества под свои задачи. Opus 4.6 оставить для рефакторинга больших кодовых баз, координации нескольких агентов и задач, где цена ошибки высока. Я до этого вообще всё делал с Opus 4.6, но кажется простые задачи теперь надо делегировать на Соннет 4.6 и оркестрировать теперь эти модели. Не люблю это, всегда забывается про выбор модели перед запуском конкретной задачи, и скорее всего так и буду сидеть на опусе 4.6 Подробнее в блоге Антропик: https://www.anthropic.com/news/claude-sonnet-4-6

3,700 views

Опубликован 17 февр.

Конструктор status line для Claude Code Ранее я вручную настраивал под себя статусную строку в СС через команду /statusline. Это было дольше, нужно было объяснить что хочется и в несколько итераций удовалось получить нужный результат. Но я нашел способ гораздо удобнее, быстрее и с кучей готовых виджетов. Можно добавить до 3-х строк в статусной строке, кастомизировать их под себя, разные метрики, цвета, разделители и прочее. Однозначно рекомендую установить и настроить наконец-то как вам нужно. Чтобы установить, в терминале введите: npx ccstatusline@latest После этого в меню выберите установить в Claude Code и после этого переходите в меню в режим управления набором виджетов, после того как закончите, сохраните и перезапустите Claude Code. Проект на гитхабе.

3,760 views

Опубликован 17 февр.

Разница поколений Вроде краб и там и там, а дофамин раньше был другой, не то что сейчас 😬

3,470 views

Опубликован 16 февр.

Я проверяю пуллреквесты Claude Code перед деплоем в прод

3,450 views

Опубликован 16 февр.

Kimi выпустили Kimi Claw Вот это я понимаю скорость и реакция! Никаких мак мини, отдельных серверов и их настроек, никаких терминалов. Запускайте собственного Краба прямо в облаке Kimi, который будет жить 24/7 – Доступ к ClawHub: 5,000+ скиллов от комьюнити. – 40GB облачного хранилища: Для краба точно должно хватить. – Или для своего текущего Claw прилинковать Kimi, запустив скрипт, который генерирует вам Kimi. – Доступно минимально на тарифе Allegretto ($39/мес). Скорее всего, что-то подобное и скорее более продвинуто с помощью Питера и команды, хочет сделать OpenAI. Все детали тут.

4,430 views

Опубликован 16 февр.

Письмо Питера, основателя OpenClaw Я присоединяюсь к OpenAI, чтобы работать над тем, чтобы агенты стали доступны каждому. OpenClaw перейдёт в формат фонда и останется открытым и независимым. Последний месяц пронёсся как вихрь. Я и представить не мог, что мой «проект для души» вызовет такие волны. Интернет снова стал странным, и это было невероятно захватывающе — наблюдать, как моя работа вдохновляет людей по всему миру. Передо мной открылся бесконечный спектр возможностей. Бесчисленное количество людей пытались направить меня в ту или иную сторону, давали советы, спрашивали, как можно инвестировать и что я собираюсь делать дальше. Сказать, что это ошеломляет, значит ничего не сказать. Когда я начал исследовать AI, моей целью было получать удовольствие и вдохновлять других. И вот мы здесь — лобстер захватывает мир. Моя следующая миссия — создать агента, которым сможет пользоваться даже моя мама. А для этого потребуется гораздо более масштабный сдвиг, серьёзное осмысление вопросов безопасности и доступ к самым передовым моделям и исследованиям. Да, я прекрасно вижу, как OpenClaw мог бы стать огромной компанией. И нет, меня это по-настоящему не вдохновляет. В душе я создатель. Я уже проходил путь построения компании — вложил в это 13 лет своей жизни и многому научился. Сейчас я хочу менять мир, а не строить ещё одну крупную компанию. И партнёрство с OpenAI — самый быстрый способ донести это до каждого. Прошлую неделю я провёл в Сан-Франциско, общаясь с ведущими лабораториями, получая доступ к людям и ещё не опубликованным исследованиям. Это было вдохновляюще во всех смыслах. Я благодарен всем, с кем удалось пообщаться, и признателен за открывшиеся возможности. Для меня всегда было важно, чтобы OpenClaw оставался open source и имел свободу развиваться. В итоге я почувствовал, что именно OpenAI — лучшее место, чтобы продолжать продвигать моё видение и расширять его масштаб. Чем больше я общался с людьми там, тем яснее становилось, что у нас общее понимание будущего. Сообщество вокруг OpenClaw — это нечто по-настоящему особенное. OpenAI взяла на себя серьёзные обязательства, чтобы я мог посвящать проекту своё время, и уже выступает его спонсором. Чтобы придать этому правильную структуру, я работаю над созданием фонда. OpenClaw останется пространством для мыслителей, хакеров и всех, кто хочет владеть своими данными, с целью поддерживать ещё больше моделей и компаний. Лично я невероятно рад присоединиться к OpenAI, стать частью передового края AI-исследований и разработки и продолжать строить будущее вместе с вами. The claw is the law. Оригинал на англ в его блоге.

3,260 views

Опубликован 16 февр.

OpenAI купили OpenClaw Основатель Клешни будет заниматься созданием персональных агентов внутри OpenAI. OpenClaw остаётся опенсорс проектом, который будет поддерживаться OpenAI

4,010 views

Опубликован 15 февр.

Управляем Effort для Opus 4.6 Я как-то не замечал ранее эту настройку Effort в /model. У меня выбрана модель Opus 4.6 по умолчанию в Claude Code CLI и я больше не захожу в настройки выбора модели. Но оказывается там появилась дополнительно настройка Effort и можно вручную установить уровень усилий рассуждений у модели Opus 4.6. Раньше то мы просто, руками в каждом запросе писали ultrathink. Вызываем команду /model и далее стрелочками влево и вправо меняем под себя Effort. Вдруг вам не нужен high, чтобы не сжигать быстро лимиты. Есть 3 варианта: Low, Medium, High. По умолчанию установлен High. Возможно кому-нибудь будет полезно, хотя я остался при своих High.

3,490 views

Опубликован 15 февр.

Твиттер начал борьбу с ботами и AI автоматизациями Теперь, если ваши действия в Х не имеют ничего общего с поведением человека (нет тапов по экрану, скроллов и т.п), ваш аккаунт сразу же будет приостанавливаться (а может и баниться) и все аккаунты с ним связанные. Я понимаю, что эмуляция поведения человека на экране легко осуществима, но это как минимум поставит заградительную стену для простых и тупых массовых автоматизаций. Никита Бир, глава продукта в Х, предупредил, что за любой автоматизированный постинг, сразу «пока». Учитывая, что Х оплачивает вознаграждения авторам за показы рекламы в их твитах, явно с автоматизацией нужно как-то бороться. Сейчас всё чаще автоматизация постинга превращается в конвейер в погоне за просмотрами, лайками и конечно же продажами. Настроили очередной OpenClaw, подключили кросс постинг во все соц сети, и в ленту летят десятки публикаций в день. Проблема не в инструментах, а в том, что с появлением AI, ленты наводняются мусорным и однотипным контентом. И кажется, чтобы соц сети не умерли, таких ограничений и детекций «Подтверди, что ты человек” будет всё больше. Началась война против AI автоматизации! Прольются реки и полетят баны 😎

3,580 views

Опубликован 13 февр.

⚡1000 токенов в секунду OpenAI начали “тратить” свой многомиллиардный контракт с Cerebras Неделю назад вышел GPT-5.3-Codex с 77.3% на Terminal-Bench, который помогал создавать сам себя. А вчера OpenAI выкатили его младшего брата - Codex-Spark. Уменьшенная версия, заточенная под одну цель: скорость. И скорость тут не метафора. 1000+ токенов в секунду. В 15 раз быстрее полноразмерного Codex. Те же задачи на SWE-Bench Pro, которые старший брат решает за 15-17 минут, Spark щёлкает за 2-3. Time-to-first-token на 50% быстрее (то самое ожидание, когда ты нажал Enter и смотришь на пустой экран), overhead ("накладные расходы" на каждый обмен сообщениями между твоим компом и сервером) на каждый раунд-трип снижен на 80%. Они ещё и persistent WebSocket прикрутили, чтобы не тратить время на переподключения. Под капотом - Cerebras Wafer Scale Engine 3. OpenAI подписали многомиллиардный контракт с Cerebras в январе, и через 4 недели уже первый продукт на этом железе в продакшене. Молния! Terminal-Bench 2.0: 58.4% у Spark против 77.3% у полного Codex. Но при этом Spark на голову выше предыдущего GPT-5.1-Codex-mini (46.1%). Контекст 128K токенов, только текст. Идея в том, что скорость меняет сам процесс работы. Когда модель отвечает мгновенно, ты остаёшься в потоке, делаешь быстрые итерации, не теряешь мысль (не успеваешь позевать). Не 15 минут тишины, а секунды. Другой ритм (красные глаза нам обеспечены, теперь не получится отрываться от монитора в ожидании когда же закончит агент). Доступно пока в виде research preview и только для подписчиков ChatGPT Pro в Codex. API обещают скоро. Цены не объявлены. Все детали в релизе: https://openai.com/index/introducing-gpt-5-3-codex-spark (тут есть видео сравнение 5.3 и 5.3 spark. Скорость просто невероятная)

3,740 views

Опубликован 13 февр.

MiniMax M2.5 - дешевая открытая модель из Китая перешла дорогу дорогим конкурентам Китайская MiniMax за год прошла путь от M1 с 56% на SWE-Bench до M2.5 с 80.2%. А предыдущие три версии (M2, M2.1, M2.5) вообще вышли за последние 3.5 месяца. Бенчмарки: – SWE-Bench Verified: 80.2% (Opus 4.6 - 80.8%, GPT-5.2 - 78%, Gemini 3 Pro - 80%) – Multi-SWE-Bench: 51.3% - обгоняет Opus 4.6 (50.3%) и Gemini 3 Pro (42.7%) – SWE-Bench Pro: 55.4% (Opus 4.6 - 55.4%, GPT-5.2 - 54.1%) – Terminal-Bench 2: 51.7% (Opus 4.6 - 55.1%, GPT-5.2 - 54%) – Droid harness: 79.7% - обгоняет Opus 4.6 (78.9%) – OpenCode harness: 76.1% - обгоняет Opus 4.6 (75.9%) – BrowseComp (поиск): 76.3% – GDPval-MM (офисные задачи): 59.0% win rate против конкурентов – Скорость на SWE-Bench: 22.8 мин - почти идентична Opus 4.6 (22.9 мин) Две вариантамодели: – M2.5-Lightning - 100 токенов/сек, $0.30/$2.40 за млн токенов. Для скорости. – M2.5 - 50 токенов/сек, вдвое дешевле: $0.15/$1.20. Для экономии. – Для сравнения: Opus 4.6 стоит $5/$25, что в 20 раз дороже минимакса. – Full-stack разработка на 13 языках (Python, JS, TS, Go, Rust, C++, Kotlin и др.), от архитектуры до code review. Web, Android, iOS, Windows + серверная часть. – Офисная работа: Word, PowerPoint, Excel с форматированием и финансовыми моделями – Поиск и агентные задачи: BrowseComp 76.3%, на 20% меньше итераций чем M2.1 – $1 в час при непрерывной работе на 100 TPS, $0.30 на 50 TPS – 80% кодовой базы самого MiniMax написано этой моделью, 30% задач компании автоматизировано через M2.5 Где попробовать: – agent.minimax.io – API: platform.minimax.io (подписки от $10/мес) – OpenRouter: модель minimax/minimax-m2.5 – В Qoder CLI, в Opencode пока бесплатно – и множество других мест, где вам привычно и скорее всего там уже завезли минимакс м2.5 Удивление и уважение!

3,920 views

Опубликован 11 февр.

Современное: «Не влезай, убьет!» 😁

3,990 views
1234567•••10•••15•••20•••25•••30•••35•••40•••45•••50•••55•••60•••65•••70•••75•••80•••8384