Recent posts
Page 27 of 68 · 812 posts
Posted Dec 5
Про вычисления из интервью с М.Я. Пратусевичем: "Я считаю, что если просто в 5 классе проработать классический задачник Березанской, то в принципе всё будет замечательно, больше ничего не надо То есть ученик должен не бояться вычислений, он должен их делать И я настаиваю, что вычислительные навыки – это важно Несмотря на то, что есть компьютеры, калькуляторы и прочее Мы никуда не денемся [от вычислительных навыков], мы должны за них биться с начальной школы и в 5-6 классе Потом-то они уже должны быть Иначе, если вы начнёте заниматься, условно, химией, где есть проценты и концентрация, и всё время будете спотыкаться и мучительно считать, например, 12 % от 50, то вам будет очень тяжело <…> В 5 классе школьнику нужно твёрдо освоить дроби В 6 классе главное – проценты, масштаб и отрицательные числа Всё остальное от лукавого"
Posted Dec 5
Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный контекст Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models https://arxiv.org/abs/2511.23319 https://github.com/ant-research/long-context-modeling https://arxiviq.substack.com/p/every-token-counts-generalizing-16m Представили HSA-UltraLong — 8B MoE-модель (Mixture-of-Experts), способную переваривать контекст длиной до 16.000.000 токенов Главное — механизм Hierarchical Sparse Attention (HSA), который рассматривает прошлые блоки контекста как "экспертов", доступных для извлечения Всё это работает в связке с хитрым curriculum learning, балансирующим локальное скользящее окно и глобальный разреженный поиск ПОЧЕМУ это важно: Стандартные трансформеры упираются в квадратичную сложность O(N^2), а линейные альтернативы вроде Mamba (https://t.me/gonzo_ML/2148) часто слишком агрессивно сжимают состояние, теряя детали далёких токенов HSA-UltraLong показывает, что если сделать процесс извлечения контекста дифференцируемым и обучаемым end-to-end, можно получить память с произвольным доступом (random access) на миллионы токенов без квадратичной стоимости полного внимания или деградации точности, свойственной эвристическим методам Подробнее: https://t.me/gonzo_ML_podcasts/1574
Posted Dec 5
Анализ по LLM в 2025 году – эмпирический анализ 100.000.000.000.000 токенов на основе метаданных платформы OpenRouter Монополий на ИИ-модели больше нет, рынок фрагментирован Ни одна модель не удерживает больше 25 % рынка открытого кода Крупнейшие игроки по объему токенов: DeepSeek — 14.370.000.000.000 (но доминирование разрушено) Qwen — 5.590.000.000.000 Meta LLaMA — 3.960.000.000.000 Mistral AI — 2.920.000.000.000 Minimax — 126.000.000.000.000 Открытые модели выросли с почти 0 до ~30 % всех токенов за 2 года Рынок стал по-настоящему мультимодельным Китай — новый глобальный экспортёр Ml-инфраструктуры Об этом писали ранее Их открытые модели в отдельные недели доходили до 30 % мирового использования (в среднем 13 % за год) Доля Азии в глобальных расходах на Ml выросла с 13 % до 31 % за два года Это уже экспорт открытых весов и дешёвой мощности по всему миру Русский язык — в тройке лидеров мира (2.47 %) всех токенов после английского (82.87 %) и китайского (4.95 %) Третье место — это очень высокий показатель для неанглоязычного сообщества Но отчёт не углубляется по задачам/моделям для русского Как люди реально используют Ml в 2025: - Программирование — больше 50 % всех токенов к концу года - Ролевые игры, интерактивные истории, творчество — второй по величине сегмент - Перевод, образование, здоровье — значительно меньше Получается, что Ml используют не только (и даже не столько) для «продуктивности», сколько для кодинга и развлечений Модели с рассуждением — уже стандарт Более 50 % всех токенов обрабатываются моделями, которые «думают» перед ответом и используют инструменты Средний контекст вырос в 3–4 раза (в программировании часто 20–100K+ токенов) Цена почти не влияет на спрос Снижение цены на 10 % даёт рост использования всего на 0.5–0.7 % Люди платят не за дешевизну, а за то, что модель идеально решает их конкретную задачу Эффект «хрустальной туфельки» Если модель с первого раза идеально подошла под задачу пользователя — он остаётся с ней навсегда Когорты Gemini 2.5 Pro (июнь 2025) и Claude 4 Sonnet (май 2025) сохраняют ~40 % активных пользователей через 5–6 месяцев Поздние когорты тех же моделей — в разы хуже. Первая любовь решает всё Ниши уже сформировались: - Anthropic Claude — 60–80 % всего программирования - DeepSeek — 60 % + ролевых игр и казуальных диалогов - xAI Grok Code Fast, Qwen 3 Coder — быстро отъедают долю в коде - Gemini Flash — рабочая лошадка для массового объёма Универсального лидера больше не будет
Posted Dec 4
«В этой части я обсуждаю роль компьютера в современных исследованиях по аддитивной теории чисел, в первую очередь по классической проблеме Варинга В своей исходной формулировке XVIII века эта проблема состоит в нахождении для каждого натурального k минимального s=g(k) такого, что все натуральные числа могут быть представлены как суммы k-х степеней неотрицательных целых чисел в количестве s штук (…) Однако даже решение проблемы Варинга в исходной формулировке было [почти] завершено только в 1984 году при самом непосредственном использовании компьютеров В настоящей статье задокументирована история этой классической задачи и ее решения, а также обсуждаются возможности использования этого материала в образовании и дальнейшие связанные с этим вопросы» Н.А. Вавилов Компьютер как новая реальность математики II Проблема Варинга http://cte.eltech.ru/ojs/index.php/kio/article/view/1663/1652
Posted Dec 4
Современный «ИИ» — это замороженные артефакты человеческой культуры Копии Это тупик Любые алгоритмы и архитектуры в долгосрочной перспективе проигрывают чистому обучению через опыт Ml-интеллект — это агент, который: - учится непрерывно - сам изобретает всё более мощные абстракции и признаки - сам ставит себе подзадачи - сам строит модель мира и планирует - и всё это без единой строчки человеческого кода для архитектуры и фичей Это OAK (Options + Knowledge) «Super intelligence will come from the agent’s own experience, not from human datasets» Нужно возвращаться к continual learning, average-reward RL, meta-learning step-sizes, self-discovered knowledge
Posted Dec 4
OpenAI published blog post stating: confessions can keep language models honest Poof-of-concept method that trains models to report when they break instructions or take unintended shortcuts Even when models learn to cheat, they’ll still admit it...
Posted Dec 3
Posted Dec 3
Posted Dec 3
Posted Dec 3
Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning https://arxiv.org/abs/2511.18659 https://github.com/apple/ml-clara https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные "токены памяти" (memory tokens) и оптимизирует поиск и генерацию end-to-end Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа ПОЧЕМУ это важно: В стандартном RAG существует проблема "разрыва градиента": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз
Posted Dec 3
Самая короткая глава в книге по физике... Название главы: Прямое экспериментальное подтверждение теории струн Содержание главы: Нет прямых экспериментальных доказательств теории струн Из «Почему теория струн?» Автор: Джозеф Конлон
Posted Dec 3
https://teletype.in/@anthropogenesisresearchinstitute/GDlOyaO4JyC