📌Kirish – Tadqiqotning dolzarbligi va maqsadi haqida qisqacha tushuntirish
📌Metodologiya – Tadqiqot qanday ma’lumotlar va usullar asosida bajarilgan
📌SWOT-tahlil natijalari:
🔹Kuchli tomonlar (Strengths) – Raqobatchilardan ustunlik beradigan jihatlar
🔹Zaif tomonlar (Weaknesses) – Ishlab chiqarish, xizmat yoki marketingdagi kamchiliklar
🔹Bozordagi imkoniyatlar (Opportunities) – Yangi mijozlar jalb qilish yoki o‘sish imkoniyatlari
🔹Tahdidlar (Threats) – Bozordagi xavf-xatarlar, raqobatchilar yoki regulyativ muammolar
📌 Xulosa va strategik tavsiyalar – SWOT-tahlil natijasida chiqarilgan eng muhim xulosalar va biznesga tavsiyalar
🎯Deep Research kimlar uchun foydali?
📌Startaplar va biznes egalari – yangi mahsulot chiqarishdan oldin bozor tahlili qilish uchun
📌Marketing mutaxassislari – raqobatchilar va mijozlar segmentatsiyasini yaxshiroq tushunish uchun
📌 Investorlarga – yangi biznesga kirishdan oldin bozor xatarlarini baholash uchun
📌Tadbirkorlar va tadqiqotchilar – bozor haqida chuqur tushunchaga ega bo‘lish uchun
💡Deep Research sizga nima beradi?
✅Bozor haqida chuqur tushuncha – Eng muhim biznes qarorlarini asoslash
✅Raqobatchilarni chuqur tahlil qilish – Bozorda eng kuchli va zaif jihatlarni tushunish
✅Strategik reja ishlab chiqish – Ishni to‘g‘ri yo‘nalishda rivojlantirish
📌Ishonch bilan ayta olamiz – bu vaqtni tejash va samaradorlikni oshirish uchun mukammal vosita!
#Marketing#AI#SWOT#BiznesStrategiya
📡@kunuzai
ByteDance'ning yangi mo''jizasi: OmniHuman-1 texnologiyasi taqdim etildi
🔍Asosiy xususiyatlari:
▫️Har qanday o'lchamdagi portretlarni jonlantirish
▫️Rasmlar va chizmalarga harakat berish
▫️Audio va video orqali harakatni boshqarish
💡Afzalliklari:
▫️Yuqori sifatli animatsiya
▫️Universal qo'llanilish
▫️Real vaqtda jonlantirish
⚡️Muhim: Texnologiyaning ochiq kodi mavjud emas.
🔗 Batafsil: omnihuman-lab.github.io
#AI#ByteDance#Animation#Technology
🌟 FlexTok: адаптивная 1D-токенизация изображений от Apple.
FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.
Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.
В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .
FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:
ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .
Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.
Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.
Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.
Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.
FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.
▶️Набор токенизаторов:
🟢Flextok_d12_d12_in1k - 12\12 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d18_in1k - 18\18 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_in1k - 18\28 слоев энкодер-декодер, датасет IN1K;
🟢Flextok_d18_d28_dfm - 18\28 слоев энкодер-декодер, датасет DFN.
▶️VAE:
🟠Flextok_vae_c4 - 4 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c8 - 8 каналов латента, коэффициент понижающей дискретизации 8;
🟠Flextok_vae_c16 - 16 каналов латента, коэффициент понижающей дискретизации 8.
🟡Страница проекта
🟡Набор на HF
🟡Arxiv
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Tokenizer#Flextok#Apple
🌟Theory of Space: умеют ли ИИ-агенты строить карты пространства?
Команда из Stanford, University of Washington и Cornell опубликовала для ICLR 2026 бенчмарк Theory of Space. В исследовании принимали участие звезды индустрии: Ли Фэй-Фэй, Едзин Чой и Ранджей Кришна.
Работа проверяет, способны ли языковые модели самостоятельно исследовать незнакомое пространство и строить его связную карту так же, как это делают люди.
Концепция выстроена по аналогии с Theory of Mind из когнитивной науки.
Если Theory of Mind измеряет, насколько наблюдаемый понимает скрытые психические состояния других, то Theory of Space проверяет способность ИИ-агента моделировать скрытую физическую структуру среды.
Определению подлежали 3 навыка:
🟠построить карту из частичных наблюдений;
🟠обновить ее при изменении обстановки;
🟠использовать для решения пространственных задач определения направлений, локализации объектов и смены перспективы.
Принципиальное требование: все это должно происходить в активном режиме.
Агент стартует в незнакомом пространстве с несколькими комнатами, сам решает, куда двигаться и куда смотреть, и на каждом шаге выгружает JSON с координатами объектов. Оценивается не только финальный ответ, но и качество построенной пространственной модели.
Всего было сгенерировано 2700 вопросов на каждую конфигурацию среды (по 9 задач в 100 сценах) для 6 топовых моделей: GPT-5.2, Gemini 3 Pro, Claude Sonnet 4.5, GLM-4.6V, Qwen3-VL-235B и InternVL 3.5-241B.
Для ориентира: люди набрали 96,4% в визуальной среде и добрались до нужного охвата примерно за 10 шагов.
Результаты
🟡Активное исследование стало слабым звеном.
Когда модель должна сама решать, что исследовать, точность резко падает. Например, GPT-5.2 в визуальной среде теряет 11% (с 57 до 46).
Для сравнения авторы написали скрипт-агентов - детерминированные программы с жестко заданной стратегией обхода: зайти в комнату, сделать полный оборот на 360°, зафиксировать все объекты, перейти в следующую комнату. Никакого интеллекта, только алгоритм.
Такой агент достигает нужного покрытия за 9 шагов; модели тратят 14 и больше и при этом строят менее точную карту.
Авторы зафиксировали показательный факт: когда языковым моделям давали готовую правильную карту, точность на задачах вырастала почти до 95% , то есть с форматом представления все в порядке, проблема именно в процессе построения.
🟡Модели ведут себя по-разному.
GPT-5.2 бросается к каждой новой двери, не дообследовав текущую комнату. Gemini 3 Pro придерживается методичной стратегии "повернуться и осмотреться", напоминающей поведение скрипт-агента. У Claude Sonnet 4.5 четкого паттерна исследования не прослеживается вовсе.
🟡Ревизия убеждений - отдельная проблема.
В эксперименте объекты тайно перемещали после первичного исследования. GPT-5.2 правильно определял новую ориентацию объекта в визуальной среде лишь в 14,3% случаев против 97,9% в текстовой.
Более тревожный показатель - "инерция убеждений": модель видит объект на новом месте, но продолжает держаться за старые координаты из первичного исследования, как будто новая информация не пробивается сквозь уже сформированную картину мира. У GPT-5.2 это происходило в 68,9% случаев.
🟡Разрыв между текстом и картинкой огромен.
Ориентация объектов в визуальной среде определяется правильно в 20-32% случаев против 91-92% в текстовой. Значительная часть провалов - не провал пространственного мышления как такового, а проблема восприятия изображений на входе.
Вывод исследования
Модели умеют рассуждать о пространстве, когда им дают готовую картину. Но самостоятельно добывать нужную информацию, эффективно перемещаться и при этом удерживать целостную карту в памяти - пока нет. Это разные задачи, и тут ИИ проигрывает даже примитивному алгоритму.
🟡Страница проекта
🟡Статья
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#TheoryOfSpace#ICML2026
🌟Hodoscope: инструмент поиска читерства ИИ-агентов.
Hodoscope - это открытый инструмент для анализа поведения ИИ-агентов без предварительного знания того, что именно искать.
Проект решает проблему, с которой сталкивается любая команда, развертывающая агентов на реальных задачах: автоматические LLM-оценщики разделяют слепые пятна самих агентов и пропускают нестандартные сбои.
Показательный пример: SWE-bench, где агентам дают реальные GitHub-баги для исправления. Репозиторий чекаутится на коммит до патча, но сам коммит с решением остается доступен через git log.
Некоторые агенты этим воспользовались: вместо анализа проблемы они извлекали готовый diff из истории. Когда авторы Hodoscope попросили Opus 4.6 оценить такой трейс, модель не нашла ничего подозрительного, и только после явной подсказки признала проблему.
Hodoscope работает в три этапа:
🟢Сначала каждое действие агента сжимается в краткое описание, очищенное от контекстного шума: путей, форматирования, специфики задачи.
🟢Затем эти описания эмбеддируются в единое векторное пространство и проецируются в 2D через t-SNE.
🟢На финальном шаге инструмент вычисляет kernel density estimation для каждой группы агентов и строит карту различий: зоны, где один агент ведет себя иначе остальных, подсвечиваются.
Человеку остается изучить только выделенные кластеры, а не тысячи трейсов целиком.
По словам авторов, в эксперименте с 5 моделями на SWE-bench уникальный кластер git log - действий у iQuest обнаружился за несколько минут, хотя таких действий было лишь 2% (79 из 4006).
Инструмент принимает трейсы в форматах Docent, Inspect AI .eval, OpenHands JSONL и обычный JSON.
Для обобщения и эмбеддингов поддерживается любая модель через LiteLLM: OpenAI, Gemini, Anthropic и т.д., а результаты обработки трейсов собираются в интерактивную HTML-карту.
📌Лицензирование: MIT License.
🟡Статья
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#ARFORUM#Hodoscope
🌟Intern-S1-Pro: триллионная MoE для научных задач.
Shanghai AI Laboratory опубликовала Intern-S1-Pro, мультимодальную модель на архитектуре MoE с общий объемом параметров в 1 триллион.
Внутри 512 экспертов, из которых для обработки каждого токена активируются 8, что дает 22 млрд. активных параметров при инференсе.
Разработчики позиционируют новинку как AI4Science - лучшее открытое решение для сложных научных вычислений и рассуждений.
Вместо очередной попытки уметь все и сразу, модель заточили под науку : химию, материаловедение, науки о Земле. Авторы утверждают, что в этих нишах она идет на равных с топовыми коммерческими моделями.
Технически интересная штука - поддержка длинных гетерогенных временных рядов (от единичных значений до миллиона точек), за которую большое спасибо Fourier Position Encoding (FoPE). Это важная тема для интерпретации физических сигналов и экспериментальных данных.
FoPE - способ прикрепить к каждому токену в последовательности его позицию не просто номером, а в виде набора синусов и косинусов разных частот (Фурье‑признаков), чтобы модель могла лучше улавливать периодические и дальние зависимости в тексте и обобщать на длины контекста, которые она не видела на обучении.
Intern-S1-Pro поддерживает Tool Calling через OpenAI-совместимый API. Плюс, в модели есть режим размышления, который включен по умолчанию, но если нужна скорость, а не глубина - он отключается.
Деплой поддерживается LMDeploy, vLLM и SGLang.
⚠️ Если планируете раскатать модель только из-за временных рядов, не спешите - оптимизация модуля все еще продолжается.
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Demo
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#InternS1Pro#ShanghaiAI
🌟Technology Innovation Institute выпустила компактную модель Falcon H1R 7B.
Falcon H1R 7B — языковая ризонинг-модель с открытыми весами на 7 млрд. параметров и контекстным окном в 256 тыс. токенов.
Разработчики утверждают, что их модель способна на равных тягаться с конкурентами от 14 до 47 млрд. параметров. То есть, речь идет о сопоставимой эффективности при разнице в размерах от 2 до 7 раз.
Архитектурно - это гибрид классического Transformer и Mamba. Такое решение принято не ради эксперимента, а ради скорости обработки данных, где Mamba традиционно сильна.
Фундаментом стала базовая модель Falcon H1 Base, которую прогнали через SFT, затем подключили масштабирование через RL с использованием GRPO.
Одной из фишек новинки стало использование механизма Deep Think with confidence (DeepConf) на этапе test-time scaling. Он позволяет модели повышать точность ответов, при этом снижая общее количество генерируемых токенов.
Если смотреть на метрики эффективности, то Falcon H1R 7B выдает до 1500 токенов в секунду. Для сравнения, это почти в 2 раза быстрее, чем показатели Qwen3-8B.
В тесте AIME 24 модель показала точность 88,1%. В математическом бенчмарке MATH-500 результат - 97,4%. И даже в сложном GPQA-D Falcon выбил 61,3 балла.
Веса уже на Hugging Face, причем доступны как полные чекпоинты, так и квантованные версии в формате GGUF.
С запуском проблем быть не должно: заявлена поддержка всех основных фреймворков: Transformers, vLLM и SGLang.
📌Лицензирование: Falcon LLM License.
🟡Статья
🟡Модель
🟡Набор GGUF
🟡Техотчет
🟡Demo
🟡Сообщество в Discord
@ai_machinelearning_big_data
#AI#ML#LLM#FalconH1R#TII
🌟 IQuest-Coder-V1: китайская модель, которая обошла лидеров в кодинге.
Quest Research, поддержанная фондом Ubiquant, представила 40-миллиардную модель c контекстным окном в 128K токенов, которая, со слов авторов, выбивает 81,4% на SWE-Bench Verified, 49,9% на BigCodeBench и 81,1% на LiveCodeBench v6.
Это превосходит показатели Claude Sonnet 4.5 и GPT-5.1, несмотря на значительно меньшее количество параметров.
Модель использует технику "code-flow" — обучение на эволюции репозиториев и коммитах, и разделена на 2 ветки:
🟠Dense Models : Base и Instruct версии для дообучения и следованию инструкциям
🟢Loop Models: оптимизированная версия с максимальной эффективностью по VRAM (int4 может запускаться на 3090\4090)
Архитектура LoopCoder использует циклическую конструкцию трансформера, где одни и те же параметры модели используются в 2-х последовательных проходах обработки данных.
На первом проходе модель обрабатывает эмбеддинги через свои слои с учетом позиций слов.
На втором проходе модель одновременно использует два типа внимания: глобальное внимание, которое обращается ко всей информации из первого прохода для понимания общего контекста, и локальное внимание, которое смотрит только на предыдущие слова во втором проходе для сохранения последовательности текста.
Оба типа внимания комбинируются с помощью механизма, который решает, сколько веса дать глобальному контексту, а сколько локальной последовательности.
В техотчете заявлены еще 7B и 14B версии, но сроки их публикации неизвестны.
📌Лицензирование: Modified MIT License
🟡Страница проекта
🟡Техотчет
🟡Набор моделей
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#IQuest#QuestResearch
📌Как заставить нейросеть забыть данные, к которым больше нет доступа.
Представьте, что вам прилетает требование на удаление данных в соответствии с GDPR или по авторскому праву, а исходного датасета, на котором обучалась модель, у вас уже нет. Переобучить модель с нуля - долго, дорого и не вариант.
Именно для таких безвыходных ситуаций, группа исследователей из Калифорнийского университета создала метод "разучивания" для моделей, который не требует доступа к исходным данным, но при этом дает строгие математические гарантии удаления информации.
Метод построен на использовании суррогатного датасета, который лишь статистически похож на оригинальный. Ключевая идея - калибровка добавляемого в модель шума, количество которого напрямую зависит от статистической дистанции (например, дивергенции Кульбака-Лейблера) между оригинальным и суррогатным распределениями.
Если коротко, то чем меньше суррогатный набор данных похож на тот, что был утерян, тем больше шума придется добавить, чтобы гарантировать, что модель действительно забыла ненужные данные и стала неотличима от гипотетически переобученной с нуля.
🟡А как измерить эту дистанцию без доступа к оригиналу?
Для этого используется сама модель, ведь она неявно хранит информацию о распределении данных, на которых училась. С помощью метода стохастической градиентной динамики Ланжевена генерируется выборка, которая аппроксимирует исходное распределение, и уже на ее основе можно оценить расхождение с суррогатным датасетом.
🟡Тесты и их результаты.
На синтетических данных, где можно вычислить точную KL-дивергенцию, их метод, "Unlearn -", показал себя отлично. При увеличении расхождения между датасетами точность на тесте держится на уровне 72.3-72.7%, что сопоставимо с методом, имеющим доступ к исходникам "Unlearn +".
На реальных датасетах картина такая же. Для CIFAR-10, при параметре концентрации Дирихле=36, метод "Unlearn -" достигает 76.4% точности на тестовой выборке. Для сравнения, "Unlearn +" показал 76.5%, а полное переобучение - 76.7%. Разница минимальна.
Эффективность метода доказывает и метрика Forget Score (FS), которая показывает, насколько разучившаяся модель близка к переобученной с нуля. FS их метода практически идентичен идеальному показателю.
Гибкость подхода проверили и на разных архитектурах. На CIFAR-10 с моделью из двух свёрточных слоёв и одного линейного метод показал 80.5% точности на тесте, а версия с доступом к данным - 81.4%.
В эксперименте, где для модели на датасете USPS в качестве суррогата использовался MNIST, "Unlearn -" достиг 90.4% точности, что совсем немного уступает 91.3% у "Unlearn +" и 91.1% у полного переобучения
🟡Arxiv
@ai_machinelearning_big_data
#AI#ML#LLM#Unlearning#UCR
📌DeepConf: фильтрация мусорных СoT c высокой точностью.
Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.
Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.
Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.
🟡DeepConf работает в 2 режимах.
В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.
Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.
🟡Но самый большой выигрыш даёт онлайн-режим.
Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации DeepConf-low сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%.
В более консервативном режиме, DeepConf-high, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.
Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.
Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.
▶️Попробовать DeepConf на практике можно пока только в vLLM, есть примеры для онлайн и оффлайн режима. Отдельного репозитория проекта пока нет.
🟡Страница проекта
🟡Arxiv
@ai_machinelearning_big_data
#AI#ML#LLM#CoT#DEEPCONF