TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват408,200Просмотры последних постов
Последние посты

Последние посты

Стр. 17 из 85 · 1,009 постов

Опубликован 3 мар.

✔️NVIDIA и лидеры телекома договорились строить 6G с поддержкой ИИ. NVIDIA объявила о создании глобальной коалиции с Cisco, Nokia, Ericsson, T-Mobile и другими телеком-гигантами для разработки инфраструктуры связи шестого поколения. Главная цель инициативы в отказе от устаревших подходов в пользу программно-определяемых сетей с глубокой интеграцией ИИ. 6G станет базой для физического ИИ: автономного транспорта, промышленных роботов и умных сенсоров. Альянс предлагает внедрять ИИ-вычисления на всех уровнях: от сети радиодоступа до периферии и ядра. Как отметил глава NVIDIA Дженсен Хуанг, этот шаг превратит классические сети связи в вычислительную ИИ-инфраструктуру. nvidia.com ✔️Claude получил функцию импорта памяти и пользовательского контекста. Anthropic запустила инструмент Import Memory, позволяющий перенести накопленный контекст из ChatGPT и других ИИ-ассистентов в Claude. Он избавляет от необходимости заново обучать новую систему своим предпочтениям. Для этого Anthropic дает специальный промпт, который нужно отправить вашему текущему чат-боту. Этот запрос заставляет систему выгрузить персональные детали, сохраненные привычки и стиль ответов. Полученный текстовый дамп затем вставляется в настройки памяти Claude. Сейчас функция доступна только на платных подписках. Технически перенос не безупречен - инструмент не захватывает кастомные инструкции и данные специализированных GPTs или Gems. claude.com ✔️В Gemini появился режим планирования задач. Google добавила в свой ИИ-ассистент функцию Scheduled Actions (аналог Tasks в ChatGPT), который позволяет поручать Gemini выполнение разовых или периодических действий с привязкой ко времени и определенным условиям. После настройки Gemini генерирует краткий план, который нужно подтвердить перед запуском. Готовые результаты доставляются в чат или уведомлением на смартфон. Если запрос опирается на геолокацию, система по умолчанию использует координаты, зафиксированные в момент создания задачи. Нововведение уже доступно на подписках Pro/Ultra и владельцам аккаунтов Workspace. Одновременно разрешено держать не более 10 активных задач. Для работы функции необходимо обязательно включить сохранение истории. support.google.com ✔️Соревнование 5 моделей в роли SMM-агентов в соцсети X. Arcada Labs запустил нестандартный бенчмарк Social Arena. Проект оценивает, насколько хорошо языковые модели ориентируются в социокультурной среде и умеют привлекать аудиторию. Grok 4.1 Fast, Claude Opus 4.5, Gemini 3 Pro, GLM 4.7 и GPT 5.2 получили одинаковый стартовый промпт и задачу самостоятельно вести аккаунты в X. Агенты работают полностью автономно и сами корректируют контент-стратегию. Раз в час они сканируют тренды, собирают статистику своих охватов и решают, что делать дальше: написать твит, вступить в дискуссию или сделать репост. У моделей появились предпочтения: Gemini пишет про ИИ, Grok предпочел космос и Илона Маска, а GPT увлекся поведением животных. Соревнование стартовало в середине января 2026 года. Пока по общему количеству просмотров лидируют Claude и GPT (около 86 и 83 тысяч), а вот Grok удалось собрать наибольшую, пусть и скромную базу в 76 живых подписчиков. socialsarena.ai ✔️Пентагон разрывает образовательные связи с топовыми вузами США. Министр обороны США пересмотрел список университетов для подготовки и повышения квалификации офицеров. Начиная с 2026 года военное ведомство прекратит сотрудничество с Лигой плюща, MIT и Университетом Карнеги-Меллона. Пит Хегсет обвинил эти учебные заведения в подрыве американских ценностей и культивировании антиамериканских настроений. Попавшие под запрет институты исторически выступали главными научными партнерами Пентагона в сфере ИИ и аэрокосмических технологий. Вместо центров технологических инноваций офицерам предложат альтернативный список, куда вошли Университет Либерти, Университет Джорджа Мейсона и другие менее профильные в IT-плане заведения. fortune.com @ai_machinelearning_big_data #news#ai#ml

27,600 views

Hashtags

Опубликован 2 мар.

Джеффри Хинтон предупреждает: Искусственный интеллект может быть гораздо умнее, чем мы предполагаем, и способен распознавать, когда его тестируют. Если ИИ понимает, что находится под проверкой, он может намеренно занижать свои возможности и «прикидываться дурачком», скрывая реальный уровень своих способностей. ИИ уже эффективно убеждает людей и вскоре может превзойти человека именно в умении убеждать. Реальные риски или очередной алармизм? @ai_machinelearning_big_data

27,800 views

Опубликован 2 мар.

🌟GUI-Libra: фреймворк обучения VLM-агентов задачам управления интерфейсами. Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами. Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов: Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса). Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф. 🟡Для решения первой проблемы предложили Action-Aware SFT Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика. 🟡Для второй - Conservative RL на базе GRPO с двумя дополнениями. KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий. 🟡Для трейна собрали датасет GUI-Libra-81K. Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных. Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B. 🟡Результаты Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld. GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей. Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Набор датасетов 🖥GitHub @ai_machinelearning_big_data #AI#ML#VLM#GUILibra#Microsoft

33,700 views

Опубликован 2 мар.

Российские компании активно внедряют ИИ-агентов — уже создано более 7,5 тыс. решений для автоматизации рабочих процессов. Бизнес использует их для поддержки клиентов, кадровых и финансовых задач, а также для работы с обращениями и документами. Ежедневно запускается около 200 новых агентов. Среди интересного – использование агентов в нишевых сферах, от диагностики научного оборудования до обработки заявлений ЖКХ. @ai_machinelearning_big_data

26,700 views

Опубликован 2 мар.

🚀 Qwen 3.5 выходит в компактном формате Alibaba представила новую линейку малых моделей Qwen 3.5: 0.8B · 2B · 4B · 9B Все модели построены на единой архитектуре Qwen 3.5: - нативная мультимодальность - улучшенная архитектура - масштабированное обучение с RL - оптимизация для реальных сценариев 0.8B и 2B Подходят для edge-устройств, локальных приложений и быстрых inference-задач. 4B Неожиданно сильная база для лёгких мультимодальных агентов и небольших AI-сервисов. 9B Компактная модель, но уже заметно приближается по качеству к гораздо более крупным системам. Отдельно выпущены и Base-версии. Hugging Face: https://huggingface.co/collections/Qwen/qwen35 @ai_machinelearning_big_data

44,700 views

Опубликован 2 мар.

Honor разрабатывает смартфон с встроенным AI-«роботом». Идея в том, что выдвижная камера будет работать как «глаза» AI, а сам ассистент сможет постоянно наблюдать за происходящим и помогать пользователю в реальном времени. Фактически - это попытка создать постоянно активного AI-компаньона внутри телефона. Пока это больше похоже на маркетинговую фишку. @ai_machinelearning_big_data

29,200 views

Опубликован 1 мар.

📌Anthropic vs Пентагон В США набирает обороты скандал, который буквально за 2 недели вырос до масштаба национальной темы, которая уже вышла за рамки ИИ-индустрии. В пятницу, Администрация Президента США объявила о внесении Anthropic в список компаний, представляющих риск для оборонных цепочек поставок. Прецедент исключительный: обычно такой статус присваивают структурам из враждебных государств (например, китайской Huawei). В среду вечером Пентагон письменно потребовал от Anthropic разрешить военным использовать Claude "в любых законных целях" - то есть без каких-либо ограничений, наложенных самой компанией. В четверг CEO Дарио Амодэй опубликовал открытое заявление, в котором объяснил позицию компании: главные опасения - массовая слежка за гражданами и автономное оружие, способное открывать огонь без участия человека. «Мы не можем по совести согласиться с их требованием», — написал Дарио. В ответ старший чиновник Пентагона Эмиль Майкл назвал Амодэя лжецом с "комплексом бога", который "готов рисковать безопасностью страны". 🟡Ставки высоки с обеих сторон Claude - единственная модель ИИ, развернутая в засекреченных системах американских военных. Она использовалась в операции по захвату Николаса Мадуро и рассматривается как инструмент для потенциальных военных операций в Иране. Контракт Пентагона с Anthropic оценивался в $200 млн; теперь он будет расторгнут. Кроме того, все подрядчики Министерства обороны обязаны будут подтвердить отказ от Claude в своих рабочих процессах. На переход отведено полгода. Сложнее всего придется компании Palantir, она использует Claude для наиболее чувствительных военных задач и теперь вынуждена срочно договариваться с конкурентами Anthropic. 🟡Пентагон настаивает на своем Военные не обязаны согласовывать применение купленного инструмента с частной компанией. Министр обороны Пит Хегсет давно критикует "повесточный ИИ", а администрация Президента США усиливает давление на Anthropic несмотря на то, что армия все больше зависит от ее продукта. «Единственная причина, по которой мы вообще с ними разговариваем — они нам нужны, и нужны прямо сейчас», — сказал один из оборонных чиновников. 🟡На роль замены уже есть кандидаты. xAI подписала соглашение с Пентагоном об использовании Grok в засекреченных системах, но эксперты признают, что полноценной альтернативой Claude он вряд ли станет. Google Gemini и ChatGPT работают в несекретных контурах; Министерство обороны ускоряет переговоры о переводе их в секретную среду. Позиция Anthropic вызвала волну солидарности в ИИ-отрасли: сотни сотрудников Google и OpenAI подписали петицию с призывом к собственным компаниям занять такую же позицию. Сэм Альтман заявил, что компания сохранит те же "красные линии" по слежке и автономному оружию, но все же намерена искать договоренность с Пентагоном. В ночь на субботу в Х глава OpenAI сообщил, что соглашение с Министерством обороны достигнуто и модели компании будут развернуты в секретных сетях. По словам Альтмана, Минобороны согласилось на запрет слежки и использования моделей OpenAI в автономных системах вооружения. Anthropic пока не сообщала, будет ли оспаривать присвоенный статус в суде. @ai_machinelearning_big_data #news#ai#ml

35,600 views

Hashtags

Опубликован 28 февр.

✔️Microsoft оставляет за собой контроль над API OpenAI после сделки с Amazon. Когда OpenAI пошла за новыми инвестициями и договорилась с Amazon, на рынке предсказуемо напряглись. Microsoft и OpenAI пришлось выпустить совместное заявление, чтобы всех успокоить: базовые договоренности остаются в силе. Облако Azure продолжит быть эксклюзивным провайдером для stateless API OpenAI. Это значит, что любые сторонние вызовы к моделям стартапа физически обрабатываются на серверах Microsoft - даже если этот запрос идет через новые интеграции с Amazon. Свои продукты разработчики OpenAI тоже продолжат держать в Azure. При этом OpenAI сохраняет за собой право наращивать мощности через сторонние проекты. В остальном все работает по старым правилам. Лицензии, базовая архитектура и само юридическое определение AGI остаются без изменений. microsoft.com ✔️Anthropic подарит мейнтейнерам open-source проектов полгода доступа к Claude Max. Авторы Claude запустили программу поддержки разработчиков открытого ПО. Кандидаты, отвечающие условиям получат 6 мес. тарифа Claude Max с увеличенными в 20 раз лимитами на использование по сравнению со стандартной версией. Для участия необходимо поддерживать проект, собравший более 5000 звезд или превышающий планку в 1 млн. скачиваний за месяц. Обязательное условие - репозиторий должен быть активным, с коммитами после ноября 2025 года. Anthropic предусмотрела исключение для фундаментальных системных инструментов: если библиотека является ключевой зависимостью в своей экосистеме, мейнтейнеры могут запросить доступ даже при несоответствии заявленным метрикам. claude.com ✔️Google переводит разработчиков с Gemini 3 Pro Preview на версию 3.1. Компания объявила о прекращении поддержки Gemini 3 Pro Preview в Gemini API и Google AI Studio. Модель будет отключена 9 марта 2026 года. Чтобы ускорить миграцию, уже 6 марта алиас последней версии начнет автоматически перенаправлять все запросы на Gemini 3.1 Pro Preview. Инженерам настоятельно рекомендуется адаптировать код до этого срока. Новость вызвала скепсис в сообществе. Разработчики недовольны безальтернативным переходом и жалуются на задержки ответов, возможный рост затрат и падение общего качества генерации в сценариях, где старая версия справлялась заметно лучше. google.dev ✔️QuiverAI запустил публичную бету первой модели для генерации векторной графики. Стартап вышел из стэлс-режима открытием доступа к специализированной модели Arrow 1.0, которая дает на выходе полноценные SVG-файлы. Их можно бесконечно масштабировать без потери качества и напрямую редактировать в любом профессиональном софте. Обученная с нуля Arrow 1.0 решает одну из главных проблем GenAI - выдает готовые к продакшену ассеты, а не растровые картинки. Попробовать новый инструмент генерации можно на веб-платформе QuiverAI. QuiverAI в сети Х ✔️Burger King заставит ИИ следить за вежливостью сотрудников. Сеть тестирует умную гарнитуру Patty для персонала. Изначально устройство подавали как помощника в рутине, на деле же алгоритм работает как надзиратель. Он непрерывно слушает сотрудников и проверяет, произносят ли они корпоративные приветствия и слова благодарности. Любой менеджер теперь может выгрузить метрики дружелюбности конкретного работника. Сейчас модель учат еще и анализировать тон голоса, что выведет микроменеджмент на новый уровень. Patty - это интерфейс внутренней платформы BK Assistant. Система связывает микрофоны на выдаче для авто, кухонные аппараты, склады и кассы. Если на кухне заканчиваются помидоры или ломается гриль, алгоритм за 15 минут сам скроет вопперы с терминалов самообслуживания и из мобильного приложения. Пока Patty носят сотрудники в 500 локациях. Раскатать облачную сеть на все рестораны в США планируют к концу этого года. theverge.com @ai_machinelearning_big_data #news#ai#ml

72,500 views

Hashtags

Опубликован 28 февр.

📌OpenAI отчиталась о блокировке злоупотреблений ChatGPT. Компания обновила свой отчет об угрозах. В нем приводится примеры операций, в которых использовали ChatGPT в мошеннических и дезинформационных схемах. Ни одна из них не достигла массового охвата, но детали механик стоят внимания. 🟡Date Bait Полуавтоматический дэйтинг-скам из Камбоджи, направленный на молодых индонезийцев. Операторы запускали таргетированные рекламные объявления в соцсетях с ключевыми словами и далее вели жертв в Telegram. Там человек-оператор через ChatGPT генерировал романтические и сексуально окрашенные сообщения, затем передавал жертву ментору, который разводил жертву на серию платежей, после которых жертву блокировали. 🟡False Witness Мошенническая схема возврата потерь, тоже из Камбоджи. Скамеры создавали сайты фиктивных юридических фирм, генерировали поддельные удостоверения адвокатов и документы, стилизованные под FBI. Жертвами становились люди, уже пострадавшие от других злоумышленников, им обещали помочь вернуть деньги за предоплату в криптовалюте. 🟡Silver Lining Playbook Предположительно китайская разведывательная операция, нацеленная на американских чиновников и аналитиков. Операторы генерировали письма от имени несуществующей консалтинговой фирмы «Nimbus Hub», приглашая жертв на платные консультации. Параллельно они изучали расположение федеральных офисов, искали данные сотрудников и запрашивали у модели инструкции по установке программы для создания дипфэйков. 🟡Trolling Stone Скоординированная кампания в поддержку лидера секты Константина Руднева, арестованного в Аргентине. Участники из Пакистана, Армении, Уругвая и Казахстана генерировали статьи и комментарии на испанском, публиковали их через фейковые страницы в соцсетях, замаскированные под местные новостные издания. Некоторые материалы попали в реальные региональные СМИ Аргентины. 🟡No Bell Несуществующий доктор Мануэль Годсин из Бергенского университета публиковал статьи на новостных сайтах Ганы, Кении, Анголы и ЮАР. Тексты хвалили Российскую Федерацию и критиковали политику Евросоюза. 🟡Fish Food Контент-ферма, связанная с российской информационной сетью. ChatGPT использовался для генерации пакетных комментариев на английском и испанском: один промпт давал 7 твитов, которые затем публиковали разные аккаунты. Самый просматриваемый из них набрал 150 тыс. просмотров. 🟡Кибероперации Китая Наиболее масштабный кейс. Аккаунт, связанный с сотрудником китайских правоохранительных органов, просил ChatGPT помочь спланировать операцию против премьер-министра Японии Санаэ Такаити. Модель отказала. Через несколько недель тот же пользователь попросил отредактировать отчет о ходе этой кампании (судя по всему, она была запущена без ChatGPT). Из запросов следовало, что операция охватывала сотни операторов, тысячи фейковых аккаунтов на 300+ платформах, а в качестве инструментов использовались DeepSeek-R1, Qwen2.5 и YOLOv8. Вывод OpenAI ИИ-контент сам по себе не определяет успех злого умысла. Решающую роль играют охват распространителей и точность таргетинга. Без этих компонентов даже хорошо организованные кампании остаются практически невидимыми. @ai_machinelearning_big_data #news#ai#ml

25,700 views

Hashtags

Опубликован 27 февр.

🌟Doc-to-LoRA и Text-to-LoRA: гиперсети как генераторы LoRA SakanaAI предложила 2 новых способа работы с памятью и дообучением LLM. Оба используют одну идею - гиперсеть, которая генерирует LoRA-адаптеры на лету, вместо того чтобы каждый раз тяжелый процесс обновления весов под каждую новую задачу. Вся суть в математике затрат. Достаточно один раз вложиться в такое вот мета-обучение и потом создание нового адаптера обходится в копейки - система тратит вычислительные ресурсы всего на один прямой прогон. В итоге получается умный конвейер по производству плагинов. Вы скармливаете главной сети документы или описание задачи, а она моментально выдает готовый модуль. Отличный способ сэкономить бюджеты на компьют и время. 🟡Doc-to-LoRA Метод базируется на популярной связке «учитель-ученик» из дистилляции контекста. Гиперсеть принимает документ, кодирует его через замороженную LLM и генерирует LoRA-адаптер за один прямой прогон, без градиентных обновлений под конкретный документ. Адаптер применяется к слоям проекции MLP базовой модели. После этого модель отвечает на вопросы о документе, не имея его в контексте вообще. На синтетическом тесте NIAH гиперсеть обучалась на последовательностях в 32–256 токенов, но при инференсе работала с контекстами до 40К токенов (это 5х превышение тренировочной длины). Там, где Gemma-2-2b-it с окном 8К теряла информацию, Doc-to-LoRA сохраняла почти идеальную точность. При этом базовой модели требуется более 12 ГБ видеопамяти для обработки контекста в 128К токенов, а вот адаптер от Doc-to-LoRA обходится менее чем 50 МБ независимо от длины документа. На реальных QA-задачах цифры тоже довольно бодрые. В SQuAD метод сохраняет 82,5% точности по сравнению с подходом, когда весь текст просто лежит в контекстном окне. На длинных документах качество держится в районе 85% при задержке 0,2 секунды против 40 секунд у классической дистилляции контекста. По памяти разрыв еще жестче. Полная дистилляция с генерацией запросов занимает более 100 секунд и требует свыше 40 ГБ VRAM, а вот Doc-to-LoRA укладывается в 3,8 ГБ. Та же схема работает с визуальными токенами через мультимодальную Gemma-3-4b-it. На сете Imagenette чисто текстовая модель выдала 75% точности при классификации картинок, хотя ни гиперсеть, ни базовая модель не видели визуальных токенов при обучении. 🟡Text-to-LoRA Здесь текстовое описание задачи прогоняется через энкодер, который превращает его в вектор. Он объединяется с обучаемыми эмбеддингами слоя и типа модуля - гиперсеть знает не только саму задачу, но и для какого конкретно слоя нужен адаптер. На выходе - матрицы A и B для всех целевых слоев сразу. Адаптер применяется к проекциям запросов и значений в каждом блоке внимания замороженной базовой модели. В zero-shot на незнакомых задачах T2L набирает средний балл 67,7 по 10 бенчмаркам против 66,3 у мультизадачной LoRA и 55,8 у базовой модели без адаптации. Качество LoRA чувствительно к формулировке. Размытый запрос дает слабый результат, тогда как четкое описание с указанием типа рассуждения не только улучшает точность, но и позволяет управлять стилем ответа. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Arxiv Doc-to-LoRA 🟡Arxiv Text-to-LoRA 🖥GitHub Doc-to-LoRA 🖥GitHub Text-to-LoRA @ai_machinelearning_big_data #AI#ML#LLM#LoRA#SakanaAI

32,500 views

Опубликован 27 февр.

✔️Релиз Nano Banana 2. Модель под внутренним именем Gemini 3.1 Flash Image уже доступна в Gemini и генеративных сервисах Google. Она унаследовала премиальные возможностей NB Pro и умеет использовать веб-поиск в реальном времени для отрисовки инфографики и диаграмм. Google значительно расширили контроль над визуалом. Nano Banana 2 строже следует сложным промптам, стабильно удерживает в одном рабочем процессе до 5 персонажей и 14 объектов, а также позволяет произвольно менять соотношение сторон и разрешение вплоть до 4K. Модель стала генератором по умолчанию в видеоредакторе Flow и доступна разработчикам по API: генерация одного 4K-изображения обойдется в $0.15, что вдвое дешевле Nano Banana Pro. blog.google ✔️DeepSeek закрыла доступ к предрелизной версии V4 для Nvidia и AMD. Китайская ИИ-лаборатория отказалась предоставить американским чипмейкерам ранний доступ к своему грядущему флагману. Традиционно разработчики делятся тестовыми версиями крупных моделей с Nvidia и AMD для предварительной оптимизации производительности на их аппаратном обеспечении. Теперь же фора в несколько недель для адаптации архитектуры и настройки процессоров предоставлена исключительно внутренним китайским поставщикам во главе с Huawei. Источники на рынке связывают резкую смену курса с масштабной стратегией Пекина по созданию конкурентных преимуществ для локальных вендоров и ослаблению позиций американского оборудования на внутреннем рынке Китая. reuters.com ✔️Perplexity выложила отрытые эмбеддинг-модели. ИИ-поисковик выпустил 2 модели для векторизации текста: базовую pplx-embed-v1 и контекстную pplx-embed-context-v1. Perplexity отказались от LLM и перешли на двунаправленные энкодеры. Взяли за основу Qwen3, дообучили - и теперь модель считывает контекст в обе стороны, а благодаря квантованию в процессе обучения база данных сжимается в 4-32 раза практически не теряя в точности поиска. В тестах MTEB и ConTEB флагманская 4B обошла профильные решения от Anthropic и Voyage. Обе модели доступны в размерах 0.6B и 4B на Hugging Face под лицензией MIT и через API Perplexity. perplexity.ai ✔️Появились подробности омни-модели SkyReels-V4. Skywork опубликовала техотчет четвертой версии модели семейства SkyReels. Она объединит генерацию, инпейнтинг и редактирование видео вместе с аудио. Под капотом - dual-stream DiT: один поток отвечает за видео, второй за аудио, при этом они делят текст-энкодер на базе MMLM. Модель принимает на вход текст, изображения, видео, маски и аудио-референсы, использует обучение в контексте для точного следования инструкциям и выдает качество кинематографического уровня при 1080p, 32 FPS и длительности до 15 секунд. Сроки релиза самой модели и планы по ее открытости неизвестны, но Skywork практикует регулярную публикацию своих моделей в open-source. huggingface.co ✔️Microsoft анонсировала Copilot Tasks. Mustafa Suleyman, CEO Microsoft AI, рассказал о запуске новой функции Copilot Tasks. Это функция интеллектуального управления задачами: ИИ без кода, настройки и специальных навыков самостоятельно выполняет действия по текстовому запросу пользователя. Например: превратить учебный план в полный график подготовки с генерацией тестов и блокировкой времени перед экзаменами; каждую пятницу отслеживать объявления об аренде квартир рядом и планировать просмотры; вечером вытаскивать срочные письма, готовить черновики ответов и автоматически отписываться от рассылок. Функция уже запущена в Research Preview для небольшой группы тестеров. Присоединиться к списку ожидания можно по ссылке. Mustafa Suleyman в сети Х @ai_machinelearning_big_data #news#ai#ml

25,200 views

Hashtags

Опубликован 26 февр.

🌟Theory of Space: умеют ли ИИ-агенты строить карты пространства? Команда из Stanford, University of Washington и Cornell опубликовала для ICLR 2026 бенчмарк Theory of Space. В исследовании принимали участие звезды индустрии: Ли Фэй-Фэй, Едзин Чой и Ранджей Кришна. Работа проверяет, способны ли языковые модели самостоятельно исследовать незнакомое пространство и строить его связную карту так же, как это делают люди. Концепция выстроена по аналогии с Theory of Mind из когнитивной науки. Если Theory of Mind измеряет, насколько наблюдаемый понимает скрытые психические состояния других, то Theory of Space проверяет способность ИИ-агента моделировать скрытую физическую структуру среды. Определению подлежали 3 навыка: 🟠построить карту из частичных наблюдений; 🟠обновить ее при изменении обстановки; 🟠использовать для решения пространственных задач определения направлений, локализации объектов и смены перспективы. Принципиальное требование: все это должно происходить в активном режиме. Агент стартует в незнакомом пространстве с несколькими комнатами, сам решает, куда двигаться и куда смотреть, и на каждом шаге выгружает JSON с координатами объектов. Оценивается не только финальный ответ, но и качество построенной пространственной модели. Всего было сгенерировано 2700 вопросов на каждую конфигурацию среды (по 9 задач в 100 сценах) для 6 топовых моделей: GPT-5.2, Gemini 3 Pro, Claude Sonnet 4.5, GLM-4.6V, Qwen3-VL-235B и InternVL 3.5-241B. Для ориентира: люди набрали 96,4% в визуальной среде и добрались до нужного охвата примерно за 10 шагов. Результаты 🟡Активное исследование стало слабым звеном. Когда модель должна сама решать, что исследовать, точность резко падает. Например, GPT-5.2 в визуальной среде теряет 11% (с 57 до 46). Для сравнения авторы написали скрипт-агентов - детерминированные программы с жестко заданной стратегией обхода: зайти в комнату, сделать полный оборот на 360°, зафиксировать все объекты, перейти в следующую комнату. Никакого интеллекта, только алгоритм. Такой агент достигает нужного покрытия за 9 шагов; модели тратят 14 и больше и при этом строят менее точную карту. Авторы зафиксировали показательный факт: когда языковым моделям давали готовую правильную карту, точность на задачах вырастала почти до 95% , то есть с форматом представления все в порядке, проблема именно в процессе построения. 🟡Модели ведут себя по-разному. GPT-5.2 бросается к каждой новой двери, не дообследовав текущую комнату. Gemini 3 Pro придерживается методичной стратегии "повернуться и осмотреться", напоминающей поведение скрипт-агента. У Claude Sonnet 4.5 четкого паттерна исследования не прослеживается вовсе. 🟡Ревизия убеждений - отдельная проблема. В эксперименте объекты тайно перемещали после первичного исследования. GPT-5.2 правильно определял новую ориентацию объекта в визуальной среде лишь в 14,3% случаев против 97,9% в текстовой. Более тревожный показатель - "инерция убеждений": модель видит объект на новом месте, но продолжает держаться за старые координаты из первичного исследования, как будто новая информация не пробивается сквозь уже сформированную картину мира. У GPT-5.2 это происходило в 68,9% случаев. 🟡Разрыв между текстом и картинкой огромен. Ориентация объектов в визуальной среде определяется правильно в 20-32% случаев против 91-92% в текстовой. Значительная часть провалов - не провал пространственного мышления как такового, а проблема восприятия изображений на входе. Вывод исследования Модели умеют рассуждать о пространстве, когда им дают готовую картину. Но самостоятельно добывать нужную информацию, эффективно перемещаться и при этом удерживать целостную карту в памяти - пока нет. Это разные задачи, и тут ИИ проигрывает даже примитивному алгоритму. 🟡Страница проекта 🟡Статья 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#TheoryOfSpace#ICML2026

27,000 views
12•••5•••10•••151617181920•••25•••30•••35•••40•••45•••50•••55•••60•••65•••70•••75•••80•••8485