TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #9378 · 13 янв.

⚡️DeepSeek Engram: условная память LLM через поиск. DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо и очень хитро забытое старое. Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь: 🟡Engram — модуль, который возвращает нас к дедам с N-грамами. DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram): 🟢Hashed N-grams: модуль смотрит на входящий текст и нарезает его на N-грамы (последовательности токенов). 🟢O(1) Lookup: система делает мгновенный запрос в гигантскую хэш-таблицу эмбеддингов - это чисто статический поиск. 🟢Context-Aware Gating: самый сок. Модель не просто слепо берет данные из "хранилища знаний" - специальный гейтинг-механизм решает: "Нам сейчас нужен факт из памяти или будем думать сами?". Если найденный N-грам релевантен контексту, он подмешивается в скрытое состояние. 🟢Tokenizer Compression: чтобы хранилище знаний не лопнуло от мусора, похожие токены в нем схлопывают в один ID, например, "Apple" и "apple". 🟡Баланс распределения ресурсов. Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U: 🟠Перекос в MoE (100% вычислений): модель тратит дорогие слои внимания на запоминание статики. Это неэффективно, лосс высокий. 🟠Перекос в Память (0% вычислений): модель превращается в гигантскую википедию. Она помнит факты, но у нее напрочь атрофируется ризонинг. Лосс тоже высокий. 🟢Золотая середина (дно U-кривой): 80% MoE и ~20% Engram. 🟡Тесты и результаты. DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги: Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0. На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте. Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам. 🟡Архитектурный нюанс. Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает. Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера. 🟡DeepSeek фактически легализовала подобие шпаргалок для LLM. Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к прекрасному ИИ светлого будущего, который может иметь условно-бесконечную память, ограниченную только объемом оперативки, а не VRAM. Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы. 🟡Техотчет 🖥Github @ai_machinelearning_big_data #AI#ML#LLM#Engram#Deepseek

Результаты

Найдено 10 похожих постов

Компания Маска xAI представила новую ИИ-модель Grok 3, которая превосходит #DeepSeek R1 и на уровне o1-pro от OpenAI за $200/месяц Всего за 1 год работы xAI удалось создать модель, конкурирующую с лидерами индустрии. Особенно впечатляет скорость развития и внедрение инновационных подходов, таких как режим Thinking. При этом команда продолжает активную работу над улучшением модели, обещая регулярные обновления. Сравнение с конкурентами: - Сопоставим по возможностям с o1-pro от OpenAI ($200/месяц) - Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking - В некоторых задачах превосходит GPT-4 - Даже мини-версия (Grok-3 mini) показывает конкурентные результаты Технические характеристики: - обучалась на 200,000 GPU - 10-кратное увеличение объема тренировки по сравнению с Grok 2 - Рекордный показатель ELO 1400 в Chatbot Arena - Лидирующие позиции в тестах: * AIME'24 (математика): 93% * GPQA (наука): 85% * LCB (программирование): 79% Стратегия Open Source от xAI: Компания планирует открывать код предыдущих версий после стабильного релиза новых. После полного релиза Grok 3 обещают открыть исходный код Grok 2. Ожидаемые сроки: в течение нескольких месяцев. Это интересно в контексте того, что сейчас в open-source доминируют Meta с Llama (запрещенная организация в РФ) и Mistral. Появление кода Grok может существенно изменить ландшафт открытых ИИ-моделей. Уникальные особенности: - Способность к нестандартному мышлению (попытка решить гипотезу Римана) - Эффективная работа с пространственными задачами - Улучшенные способности рассуждения при включенном режиме Thinking - Быстрая обработка и анализ научных статей. Ключевые особенности: 1. Thinking Mode: - Уникальная способность пошагового решения сложных задач - Успешно справляется с задачами, где другие модели дают сбой - Исправляет типичные ошибки базовой модели - Особенно эффективен в математических вычислениях 2. DeepSearch: - Продвинутая система поиска с перепроверкой источников - Успешно отвечает на вопросы о текущих событиях - Уровень сравним с Perplexity DeepResearch - Имеет некоторые ограничения в работе с Twitter/X - Иногда может создавать несуществующие URL Доступность: - Веб-версия на grok.com - Разрабатывается приложение SuperGrok - Планируется релиз голосового интерфейса - После стабильного релиза Grok 3 обещают открыть исходный код Grok 2 Учитывая темпы развития и уже достигнутые результаты, Grok 3 имеет все шансы стать одним из ключевых игроков на рынке ИИ. Однако, как отмечает Карпаты, необходимо дождаться более полных оценок в течение следующих недель для окончательных выводов.

Hashtags

Стартап SSI Ильи Суцкевера оценивают уже в $20млрд., идут переговоры о новых инвестициях Все это происходит на фоне того, как китайский #DeepSeek начал ломать бизнес-модели американских компаний с закрытыми ИИ-моделями. В ноябре 2024 года Илья заявил, что эра простого масштабирования ИИ закончилась. В декабре 2024 года Илья рассказал о будущем ИИ: - Появится настоящая самостоятельность в действиях - Системы научатся по-настоящему рассуждать - Их поведение станет менее предсказуемым (как у сильных шахматных программ, которые удивляют даже гроссмейстеров) - Они будут лучше учиться на небольшом количестве примеров - Разовьют понимание себя. SSI пока не генерирует выручку, но привлекает значительные инвестиции благодаря своей амбициозной миссии - разработке "безопасного суперинтеллекта", который будет превосходить человеческий интеллект, оставаясь при этом aligned (согласованным) с интересами человечества. SSI планирует выпустить свой продукт ~к 2028 году. В последний раз в сентябре 2024 стартап привлек $1 млрд при оценке в $5 млрд.

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #401 · 19.10.2023, 16:00

​​Polymathic - междисциплинарный ИИ Ох, какая классная межуниверситетская инициатива - Polymathic🔥. Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п. В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков. На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI. #AI#ML

Hashtags

Сумма технологий

@sum_tech · Post #171 · 03.02.2025, 04:10

"Закон о разъединении возможностей искусственного интеллекта Америки с Китаем" (Decoupling America’s Artificial Intelligence Capabilities from China Act of 2025), проект. #ai#ии#deepseek

Сумма технологий

@sum_tech · Post #170 · 03.02.2025, 03:26

Развитие искусственного интеллекта (ИИ) в Китае достигло такого уровня, что власти США начали принимать экстренные меры для сдерживания китайской экспансии в этой сфере. Одним из ключевых объектов внимания стал китайский ИИ-проект DeepSeek, который вызвал серьёзные опасения у американских властей. В ответ на растущую угрозу в США был разработан законопроект, направленный на ограничение доступа к китайским ИИ-технологиям и предотвращение их распространения на территории страны. Согласно тексту документа, под запрет попадут все китайские ИИ-модели, созданные лабораториями, колледжами или компаниями, а также любой импорт технологий и интеллектуальной собственности в сфере ИИ, если они были разработаны в Китае. Также будет запрещено распространять Open Source модели так, чтобы к ним могли получить доступ китайские пользователи и разработчики. За нарушение этого правила предусмотрено наказание в виде лишения свободы на срок до 20 лет. Подробности: http://vk.com/@sum_tech-ekstrennye-mery-ssha-protiv-kitaiskogo-ii #ai#ии#deepseek

Сумма технологий

@sum_tech · Post #162 · 28.01.2025, 11:52

«DeepSeek»: как порвать рынок нейросетей Всего одна китайская нейросеть умудрилась обрушить не только весь мировой рынок нейросетей, но и фондовый рынок США. Китайцы собрали простую и дешевую сеть «DeepSeek», которая оказалась гораздо эффективнее, чем «ChatGPT». Нюанс в том, что ChatGPT ориентирован на экстенсивное развитие, то есть на наращивание вычислительных мощностей нейросети. DeepSeek же основывается на более современных алгоритмах и принципиально новом подходе к разработке нейросетей. Грубо говоря, там, где все технологические гиганты просто добавляли всё новые и новые процессорные блоки, разработчики DeepSeek сели и подумали, как сделать лучше программным способом. И сделали. Основной плюс DeepSeek – он бесплатен. Он работает быстрее, лучше и надёжнее, чем ChatGPT, на который уже потратили сотни миллионов долларов. У него нет так называемых «галлюцинаций», то есть заведомо ложных и несуществующих выводов. По данным анализа ведущих экспертов, DeepSeek использует на 75% меньше памяти в сравнении с основными конкурирующими нейросетями, и использует систему мультитокенов, позволяющую анализировать фразы целиком. В DeepSeek реализована модель специализированных экспертов и параметров, которые «включаются» только по мере необходимости. Как следствие, система может работать не на дорогостоящих серверных платформах, а на обычных игровых компьютерах, а стоимость её API на 95% дешевле, чем у ChatGPT. По факту DeepSeek «одной левой» сломала всю отлаженную «западную» схему по превращению искусственного интеллекта в деньги, по которой якобы «только крупные tech-компании могут играть в ИИ». Оказывается, нет. И за короткий срок DeepSeek стал самым популярным бесплатным приложением в Apple App Store в США, обойдя ChatGPT. Ну и вишенка на торте. Код DeepSeek публичный. Техническая документация находится в открытом доступе. Каждый человек может купить мощный компьютер и сделать себе свой собственный DeepSeek. Это не революция — это крупнейший прорыв в сфере ИТ со времён изобретения персонального компьютера, который «убил» мейнфреймы. На фоне успехов DeepSeek в мире началась настоящая нейросетевая лихорадка, тут же перекинувшаяся на биржи. Только за сутки акции технологических гигантов, в первую очередь Nvidia, рухнул на несколько процентов, а это примерно триллион долларов. Вся бизнес-модель ИТ-гигантов была построена на принципе продажи супердорогих GPU (Graphics Processing Unit) с маржой 90%. Теперь оказалось, что эти GPU просто не нужны. В ответ DeepSeek подвёргся масштабным кибератакам. В течение 28 января в сервисе было невозможно зарегистрироваться, десктопная версия нейросети не отвечал на запросы, хотя и загружалась. Что дальше? OpenAI, Anthropic и Nvidia просели, но не убиты. Само собой, они сделают выводы, переформатируют бизнес и выведут на рынок, вероятнее всего, бесплатные нейросети. А деньги будут зарабатывать на том же, на чём их зарабатывают поисковые системы: на анализа запросов пользователей и продаже этого анализа коммерсантам, то есть на формировании маркетинговых стратегий. Рано или поздно это должно было случиться — но этот момент все изо всех сил оттягивали. Кстати, только в январе 2025 года Китай обошёл «Starlink» со своим проектом «Chang Guang Satellite Technology», достигнув скорости передачи данных со спутника на Землю в 100 гигабит в секунду. А китайская тороидальная установка для магнитного удержания плазмы с целью достижения условий, необходимых для протекания управляемого термоядерного синтеза (токамак) «EAST» смогла добиться поддержания температуры свыше 100 миллионов градусов в течение 1066 секунд, побив свой собственный предыдущий рекорд в 403 секунды. На основе подобного токамака будут создаваться плазменные электростанции, которые смогут давать практически бесплатную электроэнергию в неограниченных масштабах. #ai#ии#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5668 · 01.12.2025, 12:00

✴️DeepSeek наконец проснулись и выпустили новые модели Выкатили аж две штуки: обычный V3.2 с возможностью включить/выключить мышление и V3.2 Speciale, у которого обещают лучшие ответы и тяжелый ризонинг. По бенчмаркам не плохо, подробнее: DeepSeek-V3.2 — официальный преемник V3.2-Exp, доступен в App/Web/API и позиционируется как «ежедневный драйвер» с сбалансированным инференсом и длиной ответов. DeepSeek-V3.2-Speciale — максимум рассуждений и упор на сложные задачи; сейчас только API и без tool-use, чтобы сообщество смогло нормально оценить и воспроизвести результаты. Speciale заявляет «золотой уровень» на математических и алгоритмических олимпиадах (IMO, CMO, ICPC WF, IOI-2025), а V3.2 — интегрирует «thinking» прямо в tool-use и поддерживает инструменты как в thinking-, так и в non-thinking-режимах. Важно: Speciale расходует больше токенов, но выигрывает там, где нужны глубокие цепочки рассуждений. Ссылки на модели:DeepSeek-V3.2 (Hugging Face) • DeepSeek-V3.2-Speciale (Hugging Face) 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5324 · 29.09.2025, 10:43

✴️DeepSeek-V3.2-Exp: новая экспериментальная модель с DSA и снижением цен на API на 50%+ DeepSeek-V3.2-Exp построена на базе V3.1-Terminus и впервые внедряет DeepSeek Sparse Attention (DSA) — разрежённую схему внимания, которая ускоряет обучение и инференс на длинном контексте при минимальном влиянии на качество. Модель уже доступна в приложении, на веб-версии и по API, а стоимость API снижена более чем на 50% — действует сразу. По бенчмаркам V3.2-Exp держится на уровне V3.1-Terminus. Для корректного сравнения V3.1-Terminus остаётся во временном API до 15 октября 2025, 15:59 (UTC) — подробности в руководстве по A/B-сравнению. Обратную связь по DSA можно оставить через форму. Доступны материалы опенсорс-релиза: модель на Hugging Face и технический отчёт (PDF). 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5272 · 22.09.2025, 14:10

✴️DeepSeek-V3.1-Terminus: стабильнее, чище язык, умнее агенты Обновление DeepSeek-V3.1 → V3.1-Terminus доводит сильные стороны прошлой версии и закрывает самые частые отзывы пользователей: меньше языковой «каши» и больше надёжности на бенчмарках. Что подтянули: 🟡Языковая консистентность. Снизили перемешивание CN/EN, исчезли случайные символы — ответы выглядят аккуратнее. 🟡Агенты. Усилили Code Agent и Search Agent — более точные правки кода и устойчивый поиск. 🟡Стабильность. На тестах выше надёжность и повторяемость ответов по сравнению с V3.1. Модель уже доступна в приложении, в вебе и через API. Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #новости#нейросети#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5149 · 04.09.2025, 15:30

✴️Bloomberg: DeepSeek готовит версию с «обучением на инструментах» По данным Bloomberg, компания DeepSeek готовит к скорому релизу модель, сфокусированную на tool use: вызовы внешних API, поиск в сети, запуск и проверка кода — всё как часть многошаговых agentic-сценариев. Подробности и точные сроки не раскрыты, но акцент на «инструментах» должен дать лучшее планирование шагов, более надёжные действия и рост пользы в реальных задачах — от исследований до автоматизации рабочих процессов. 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek