US: FTC's New Rule Targets Fake Reviews and Testimonials
The Federal Trade Commission (FTC) has introduced a significant new rule to combat the rise of fake consumer reviews and deceptive testimonials. As businesses increasingly rely on online reviews to influence consumer behavior, the FTC’s regulation marks a crucial step in ensuring that these reviews are authentic and transparent. The rule, which is part of the FTC's broader strategy to protect consumers and promote fair competition, enables courts to impose civil penalties on violators and allows the FTC to seek compensation for those affected by deceptive practices.
Key provisions of the rule prohibit the creation, sale, or purchase of fake consumer reviews and testimonials. This includes AI-generated reviews, which the FTC explicitly addressed, signaling its commitment to preventing the use of artificial intelligence in misleading ways.
Marketers and businesses must now ensure that all reviews are genuine, accurately reflect consumers' experiences, and that any insider connections are fully disclosed. Failure to comply with these regulations could result in significant legal and financial consequences, as the FTC continues to prioritize consumer protection in the digital marketplace.
#AI#FTC#ConsumerProtection
🌟Nemotron-Terminal: небольшое семейство для терминальных задач.
NVIDIA обучила семейство моделей Nemotron-Terminal для автономной работы в терминале Linux: устанавливать зависимости, писать и запускать код, отлаживать окружения и выполнять сквозные инженерные задачи без участия человека.
Семейство построено на базе Qwen3 и специально собранном датасете Terminal-Corpus. И фишка не в архитектуре, а в данных.
🟡NVIDIA собрала пайплайн Terminal-Task-Gen с 2 потоками.
Первый адаптирует готовые датасеты по математике, коду и SWE-задачам под терминальный формат (без участия LLM в процессе адаптации).
Второй генерирует синтетику 2 методами: seed-based (LLM создает новые задачи на основе существующих задач из смежных областей) и skill-based (LLM комбинирует до пяти примитивных навыков из таксономии по 9 доменам: Security, Data Science, System Administration и другим).
🟡В открытый релиз вошли все три модели на 8B, 14B, 32B параметров и 2 датасета:
Terminal-Corpus: около 366K траекторий выполнения задач, разбитых на два потока: ~226K адаптированных примеров из Math/Code/SWE и ~140K синтетических задач на основе skill-таксономии.
Synthetic-Tasks: задачи в стандартизированном формате: инструкция, Docker-окружение из 9 преднастроенных образов и верификационный набор на pytest.
🟡Результаты прогонов на бенчах.
На Terminal-Bench 2.0 все 3 модели показали кратный рост относительно базовой Qwen3: 8B - с 2.5% до 13%, 14B - с 4% до 20.2%, 32B - с 3.4% до 27.4%.
Для сравнения: Qwen3-Coder на 480B параметров набирает 23.9%, GPT-5-Mini - 24.0%, Grok 4 - 23.1%. Nemotron-Terminal-32B превосходит или вплотную конкурирует с ними всеми при разнице в размере на порядок.
🟡Несколько внезапных выводов из абляции.
Фильтрация неудачных траекторий вредит. Модель, обученная на всех траекториях включая ошибочные, набирает 12.4% против 5.06% у варианта только с успешными.
Curriculum learning (сначала простые данные, потом сложные) не дал преимуществ перед простым смешанным обучением.
Увеличение контекстного окна с 32K до 65K токенов также не помогло, длинные траектории оказались шумнее.
📌Лицензирование моделей: NVIDIA Open Model License
📌Лицензирование датасетов : CC-BY-4.0 License.
🟡Набор моделей
🟡Arxiv
@ai_machinelearning_big_data
#AI#ML#LLM#NemotronTerminal#NVIDIA
🌟NVIDIA KVzap: жмем KV-кэш в 4 раза.
Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.
NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.
🟡Логика метода разбита на 2 этапа:
Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.
Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.
Модели 2-х видов:
KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).
KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).
🟡Все вместе это работает так
Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.
🟡Результаты тестов.
Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде.
Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.
🟡Звучит, конечно, как гем, но давайте про минусы:
🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый.
🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов.
Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.
🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало.
🟡По итогу, KVzap - крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще.
Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.
Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.
Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.
@ai_machinelearning_big_data
#AI#ML#LLM#KVZAP#NVIDIA
🌟NVIDIA переизобретает память: LLM, которые доучиваются прямо во время инференса
Контекстные окна растут, но тут два стула: либо классическое внимание, которое питается памятью и компьютит как не в себя, либо RNN-подобные Mamba, DeltaNet, которые работают быстро, но в длинном контексте начинают плыть и терять детали.
NVIDIA предлагает решение, которое пытается усидеть на обоих стульях сразу - Test-Time Training with End-to-End formulation (TTT-E2E):
Обычно веса модели заморожены после тренировки. Когда вы скармливаете ей данные, она просто держит её в KV-кэше. В TTT все по-другому: контекст — это и есть обучающий датасет. Пока модель читает ваш промпт (контекст), она обновляет свои веса (если точнее - делает градиентный спуск прямо на лету), тем самым, инфа из контекста впекается в саму модель. Это позволяет сжать гигантские объемы в фиксированный размер состояния, не раздувая KV-кэш до небес.
🟡В результате - красота и волшебство:
🟢Латентность инференса становится константной. Неважно, 100 токенов в контексте или миллион — время генерации следующего токена одинаковое.
🟢На контексте 128k токенов — ускорение в 2.7x по сравнению с Attention (на H100). На 2M токенов — ускорение в 35 раз.
🟢В отличие от Mamba и других RNN, качество не проседает на длинных дистанциях. TTT держит планку на уровне полного внимания.
🟡Разумеется, есть куча пунктов со звездочкой
🟠Трейн - сложный. Чтобы модель могла так лихо учиться на лету, её нужно спечиальным образом претрейнить. Этот процесс сейчас в 3.4x медленнее, чем обычное обучение.
🟠Метод требует вычисления градиентов от градиентов во время обучения. FlashAttention из коробки сейчас это не поддерживает, нужны кастомные ядра или костыли.
🟠Cам процесс поедания контекста при инференсе требует вычислений во время префилл-фазы.
По итогу, NVIDIA сравнивает RAG с блокнотом, а свой TTT — с реальным обновлением нейронных связей мозга. Если есть желание покопаться в методике и проникнуться идеей - код и пейпер в открытом доступе.
🟡Статья
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#TTTE2E#NVIDIA
🌟ToolOrchestra: буст ИИ-потенциала за счет координации моделей и инструментов.
NVIDIA совместно с Университетом Гонконга разработала ToolOrchestra - методику обучения дирижеров для ИИ-агентов, и выпустила на ее основе модель Orchestrator-8B.
Это модель, базирующаяся на архитектуре Qwen3 предназначена для оркестрации других моделей и инструментов. Вместо того чтобы решать задачу в одиночку, модель чередует этапы рассуждения с вызовом внешних инструментов.
В ее арсенале поисковые движки, интерпретаторы кода и другие LLM, от узкоспециализированных математических до универсальных гигантов Claude и Llama-Nemotron.
Обучение проводилось с помощью GRPO, который поощрял модель не только за точность, но и за экономическую эффективность.
В результате решение получилось в 2,5 раза быстрее и на 70% дешевле в эксплуатации, чем использование одной лишь флагманской модели для всех этапов задачи, а сама Orchestrator-8B набрала 37,1% в сложнейшем бенчмарке Humanity's Last Exam , обойдя GPT-5 (35,1%).
📌Лицензирование кода : Apache 2.0 License.
📌Лицензирование модели: NVIDIA License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#Orchestrator#NVIDIA
🌟NVIDIA Jet-Nemotron: гибридная архитектура, которая быстрее SOTA-моделей в 53 раза.
Jet-Nemotron - новая архитектура языковых моделей, которая, по заявлениям NVIDIA, превосходит по эффективности топовые опенсорс-модели.
На H100 обещают ускорение пропускной способности при генерации до 53.6 раз, если работать с контекстом в 256 тыс. токенов и максимальным размером батча. Такой скачок производительности стал возможен благодаря двум ключевым инновациям: пайплайну PostNAS и новому блоку линейного внимания JetBlock.
🟡PostNAS (Post Neural Architecture Search).
Суть PostNAS состоит в отказе от дорогостоящего обучения новых архитектур с нуля. Вместо этого берут уже предварительно обученную модель и запускают процесс постобработки. Пайплайн сначала анализирует модель и определяет, какие слои внимания вносят наибольший вклад в её работу, а какие - не так уж и важны. Дальше он ищет оптимальное расположение для слоёв полного внимания и подбирает улучшенный дизайн для остальных блоков.
🟡JetBlock - модуль линейного внимания.
Его фишка - динамические сверточные ядра, генерируемые на лету в зависимости от входных данных и применяемые к value-токенам.
Прямое сравнение с Mamba2 Block, проведенное на идентичных данных и с одинаковыми параметрами обучения, показало существенный прирост в точности при сохранении той же пропускной способности во время обучения и инференса.
🟡Третий элемент успеха - аппаратно-ориентированный поиск архитектуры.
Вместо того чтобы использовать количество параметров в качестве прокси-метрики для эффективности, авторы напрямую оптимизируют архитектуру под целевое железо (H100), используя в качестве цели именно пропускную способность генерации.
Ключевое открытие тут в том, что размер KV-кэша, а не количество параметров, является критическим фактором, ограничивающим скорость генерации на длинных контекстах, поскольку декодирование упирается в пропускную способность памяти.
Фиксируя размер кэша, они провели поиск по размерности ключей/значений и числу голов внимания, обнаружив конфигурации, которые при том же объеме кэша и схожей пропускной способности используют больше параметров для достижения более высокой точности.
Итоговый дизайн Jet-Nemotron, построенный на базе Qwen 2.5, включает всего 2 full-attention слоя (для retrieval) и 2 слоя со скользящим вниманием (SWA, для MMLU), остальные — JetBlock.
Что касается конкретных моделей, то уже есть Jet-Nemotron-2B и Jet-Nemotron-4B. По результатам тестов, они как минимум не уступают по точности ведущим эффективным моделям, например, Qwen3, на целом ряде бенчмарков. При этом младшая модель Jet-Nemotron-2B работает в 21 раз быстрее, чем Qwen3-1.7B-Base, а старшая, Jet-Nemotron-4B, обгоняет её уже в 47 раз.
▶️ Код и веса моделей обещают опубликовать сразу после завершения юридической проверки.
🟡Страница проекта
🟡Arxiv
🖥GitHub (Coming Soon)
@ai_machinelearning_big_data
#AI#ML#LLM#NVIDIA#JetNemotron
Google 希望向全美 600 万教育工作者免费提供 Gemini AI 培训
Google 计划向全美 600 万教育工作者免费提供 Gemini AI 培训,旨在尽早进入教育市场。此举将帮助 Google 熟悉美国教师群体,并确保其在教育领域的早期准入。THE DECODER
🏷#Google#Gemini#AI#Education
📢频道👥群组📝投稿
⚡️DeepSeek Engram: условная память LLM через поиск.
DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо и очень хитро забытое старое.
Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:
🟡Engram — модуль, который возвращает нас к дедам с N-грамами.
DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):
🟢Hashed N-grams: модуль смотрит на входящий текст и нарезает его на N-грамы (последовательности токенов).
🟢O(1) Lookup: система делает мгновенный запрос в гигантскую хэш-таблицу эмбеддингов - это чисто статический поиск.
🟢Context-Aware Gating: самый сок. Модель не просто слепо берет данные из "хранилища знаний" - специальный гейтинг-механизм решает: "Нам сейчас нужен факт из памяти или будем думать сами?". Если найденный N-грам релевантен контексту, он подмешивается в скрытое состояние.
🟢Tokenizer Compression: чтобы хранилище знаний не лопнуло от мусора, похожие токены в нем схлопывают в один ID, например, "Apple" и "apple".
🟡Баланс распределения ресурсов.
Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:
🟠Перекос в MoE (100% вычислений): модель тратит дорогие слои внимания на запоминание статики. Это неэффективно, лосс высокий.
🟠Перекос в Память (0% вычислений): модель превращается в гигантскую википедию. Она помнит факты, но у нее напрочь атрофируется ризонинг. Лосс тоже высокий.
🟢Золотая середина (дно U-кривой): 80% MoE и ~20% Engram.
🟡Тесты и результаты.
DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:
Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.
На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.
Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.
🟡Архитектурный нюанс.
Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.
Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.
🟡DeepSeek фактически легализовала подобие шпаргалок для LLM.
Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к прекрасному ИИ светлого будущего, который может иметь условно-бесконечную память, ограниченную только объемом оперативки, а не VRAM.
Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.
🟡Техотчет
🖥Github
@ai_machinelearning_big_data
#AI#ML#LLM#Engram#Deepseek
🎧 AirPods endi gapni real vaqtda tarjima qiladi 🌍
Apple kompaniyasi kuzda AirPods quloqchinlariga nutqni boshqa tillarga sinxron tarjima qilish funksiyasini qo‘shadi. Bu haqda insayder Mark Gurman xabar berdi. Yangi funksiya iOS 19 bilan birga taqdim etilishi kutilmoqda.
Bu yangilik biznes egalari, IT-mutaxassislar va xorijiy mijozlar yoki sayyohlar bilan ishlovchilar uchun juda foydali bo‘lishi mumkin.
Batafsil Bloomberg saytidan o‘qishingiz mumkin.
#Apple#AirPods#AI#Texnologiyalar
📡@kunuzai