🚨🚨 DeepSeek в первый день года показала реально важную штуку: улучшение трансформеров.
Китайцы предложили способ сделать shortcut-путь в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.
В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.
Это помогает информации проходить через много слоёв, не теряясь.
Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.
Перед каждым шагом модель выбирает, какие потоки подать на вычисления.
Во время шага часть сигнала идёт «в обход»,
чтобы ничего не потерять.
После всё снова аккуратно объединяется.
То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.
Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.
mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.
Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.
Что это даёт на практике:
- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.
Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.
Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.
И трансформеры стали гибче и стабильнее.
https://arxiv.org/abs/2512.24880
@ai_machinelearning_big_data
#AI#DeepSeek#MachineLearning#NeuralNetworks#Research
📚Хороший гайд по рынку AI от Translink Capital.
Тот случай, когда это не пост по отчету, а именно сам отчет.
Kelvin Mu из Translink Capital (давно и неплохо делает аналитику по сегменту) сделал чтиво по рынку искусственного интеллекта на 42 страницы. Тот случай, когда минимум графиков, которые мы любим, зато отчет достаточно емкий. Вдруг вы пропустили что-то по теме, это точно поможет расставить по полочкам. Понятно, что где в каком сегменте происходит.
Структура:
▪️Infrastructure Layer
▪️Model Layer
▪️Tooling Layer
▪️Application Layer
▪️Investments and M&A
▪️Other AI trends
Могу лишь еще лично направить почитать про тренд по Inference optimization в Tooling Layer, где сказано про наш уже бывший стартап Deci AI, который купила NVIDIA, но вообще каждый найдет там что-то свое. Очень кропотливо собраны тренды.
@proVenture
#ai#research
💯The AI 100 2023: The top people in artificial intelligence.
❗️Сразу попрошу вас – чтобы было интереснее, сначала прочитайте пост, а потом посмотрите приложенный к посту скриншот, не наоборот, а то спойлеры 😁
Любопытный список, на анализ которого я потратил, возможно, больше времени, чем нужно. Но думаю, вам тоже будет интересно. Business Insider подготовил и выкатил список топ-100 людей в AI версии 2023 года. И без paywall, так что я побежал читать. Мне захотелось посмотреть, кто это – и не просто поглазеть, а проанализировать немного.
Я прошелся по каждому из списка и вот что получилось:
1/ В списке представители следующих групп:
▪️43 из стартапов
▪️25 из корпораций
▪️14 из университетов и исследовательских центров
▪️5 из non-profit организаций
▪️4 VC
▪️9 прочее
2/ География жутко концентрирована (P.S. география – это то, где люди находятся сейчас, а не откуда они, почти всегда данные из Linkedin или Crunchbase):
▪️85 из США
▪️7 из Канады
▪️8 из остальных 8 стран
3/ Среди 43 представителей стартапов наиболее встречающиеся направления следующие:
▪️7 Generative AI
▪️6 Biotech & HealthTech
▪️4 AI Audio and video production
▪️3 Conversational AI
▪️2 ML Tools
▪️2 Big Data
▪️2 Edu Tech
▪️2 Defense Tech
4/ Какие компании представлены чаще всего:
▪️5 Amazon
▪️5 Google (совместно с DeepMind)
▪️2 OpenAI
▪️2 Anthropic
▪️2 Hugging Face
5/ Несколько любопытных фактов по списку:
🔹 В списке есть два представителя компаний, которые производят контент для фильмов и т.п. Это прикольно. Я их объединил в одну группу с классическим стартапами, которые генерят видео или аудио под запрос;
🔹 Всего 1 представитель государственного сектора, зато 2 из инвестбанков и 2 из прессы (Bloomberg и NYT);
🚀 Есть 1 человек из пространства СНГ так сказать. Это Карен Симонян из стартапа Inflection AI. Он живет в Армении, а Infection AI – это “personal AI”, они разрабатывают ассистента, собеседника, партнера и т.п. для каждого. Самое ошеломительное, последний раунд Infection AI поднял на $1.3B в конце июня 2023 года (🤑 WAT!?), а лид инвесторами стали Microsoft и Nvidia. Карен джан и команда, мои поздравления, если вы это читаете!
❓Казалось бы, что еще может быть интереснее для нас с вами? Но есть еще кое-что. Есть один человек в списке, деятельность которого можно описать как “comedian and actor”. Это Сара Сильверман. Так вот, откуда такой человек в списке?
Сара была первым человеком, который подал в суд на разработчиков LLM моделей за то, что они использовали ее работы, защищенные вроде как авторским правом. Потом это переросло в class action, к ней присоединились ее соавторы, создатели The Game of Thrones и другие. Авторы рейтинга считают, что несмотря на то, что суд может длиться годами, для нас с вами действия Сары могут послужить источником того, что мы сможем понять более детально, как работают такие модели (наверное, из материалов суда), а также позволят авторам уникального контента понимать, что им делать в противостоянии с гигантскими моделями генераторов контента и как защитить себя.
Вот такой любопытный список, изучайте: https://www.businessinsider.com/the-ai-100-2023-the-people-who-make-ai-intelligent-2023-10
@proVenture
#research#ai
Компания Маска xAI представила новую ИИ-модель Grok 3, которая превосходит #DeepSeek R1 и на уровне o1-pro от OpenAI за $200/месяц
Всего за 1 год работы xAI удалось создать модель, конкурирующую с лидерами индустрии. Особенно впечатляет скорость развития и внедрение инновационных подходов, таких как режим Thinking. При этом команда продолжает активную работу над улучшением модели, обещая регулярные обновления.
Сравнение с конкурентами:
- Сопоставим по возможностям с o1-pro от OpenAI ($200/месяц)
- Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking
- В некоторых задачах превосходит GPT-4
- Даже мини-версия (Grok-3 mini) показывает конкурентные результаты
Технические характеристики:
- обучалась на 200,000 GPU
- 10-кратное увеличение объема тренировки по сравнению с Grok 2
- Рекордный показатель ELO 1400 в Chatbot Arena
- Лидирующие позиции в тестах:
* AIME'24 (математика): 93%
* GPQA (наука): 85%
* LCB (программирование): 79%
Стратегия Open Source от xAI:
Компания планирует открывать код предыдущих версий после стабильного релиза новых. После полного релиза Grok 3 обещают открыть исходный код Grok 2. Ожидаемые сроки: в течение нескольких месяцев.
Это интересно в контексте того, что сейчас в open-source доминируют Meta с Llama (запрещенная организация в РФ) и Mistral. Появление кода Grok может существенно изменить ландшафт открытых ИИ-моделей.
Уникальные особенности:
- Способность к нестандартному мышлению (попытка решить гипотезу Римана)
- Эффективная работа с пространственными задачами
- Улучшенные способности рассуждения при включенном режиме Thinking
- Быстрая обработка и анализ научных статей.
Ключевые особенности:
1. Thinking Mode:
- Уникальная способность пошагового решения сложных задач
- Успешно справляется с задачами, где другие модели дают сбой
- Исправляет типичные ошибки базовой модели
- Особенно эффективен в математических вычислениях
2. DeepSearch:
- Продвинутая система поиска с перепроверкой источников
- Успешно отвечает на вопросы о текущих событиях
- Уровень сравним с Perplexity DeepResearch
- Имеет некоторые ограничения в работе с Twitter/X
- Иногда может создавать несуществующие URL
Доступность:
- Веб-версия на grok.com
- Разрабатывается приложение SuperGrok
- Планируется релиз голосового интерфейса
- После стабильного релиза Grok 3 обещают открыть исходный код Grok 2
Учитывая темпы развития и уже достигнутые результаты, Grok 3 имеет все шансы стать одним из ключевых игроков на рынке ИИ. Однако, как отмечает Карпаты, необходимо дождаться более полных оценок в течение следующих недель для окончательных выводов.
Стартап SSI Ильи Суцкевера оценивают уже в $20млрд., идут переговоры о новых инвестициях
Все это происходит на фоне того, как китайский #DeepSeek начал ломать бизнес-модели американских компаний с закрытыми ИИ-моделями.
В ноябре 2024 года Илья заявил, что эра простого масштабирования ИИ закончилась.
В декабре 2024 года Илья рассказал о будущем ИИ:
- Появится настоящая самостоятельность в действиях
- Системы научатся по-настоящему рассуждать
- Их поведение станет менее предсказуемым (как у сильных шахматных программ, которые удивляют даже гроссмейстеров)
- Они будут лучше учиться на небольшом количестве примеров
- Разовьют понимание себя.
SSI пока не генерирует выручку, но привлекает значительные инвестиции благодаря своей амбициозной миссии - разработке "безопасного суперинтеллекта", который будет превосходить человеческий интеллект, оставаясь при этом aligned (согласованным) с интересами человечества.
SSI планирует выпустить свой продукт ~к 2028 году.
В последний раз в сентябре 2024 стартап привлек $1 млрд при оценке в $5 млрд.
"Закон о разъединении возможностей искусственного интеллекта Америки с Китаем" (Decoupling America’s Artificial Intelligence Capabilities from China Act of 2025), проект.
#ai#ии#deepseek
Развитие искусственного интеллекта (ИИ) в Китае достигло такого уровня, что власти США начали принимать экстренные меры для сдерживания китайской экспансии в этой сфере.
Одним из ключевых объектов внимания стал китайский ИИ-проект DeepSeek, который вызвал серьёзные опасения у американских властей. В ответ на растущую угрозу в США был разработан законопроект, направленный на ограничение доступа к китайским ИИ-технологиям и предотвращение их распространения на территории страны.
Согласно тексту документа, под запрет попадут все китайские ИИ-модели, созданные лабораториями, колледжами или компаниями, а также любой импорт технологий и интеллектуальной собственности в сфере ИИ, если они были разработаны в Китае.
Также будет запрещено распространять Open Source модели так, чтобы к ним могли получить доступ китайские пользователи и разработчики. За нарушение этого правила предусмотрено наказание в виде лишения свободы на срок до 20 лет.
Подробности:
http://vk.com/@sum_tech-ekstrennye-mery-ssha-protiv-kitaiskogo-ii
#ai#ии#deepseek
«DeepSeek»: как порвать рынок нейросетей
Всего одна китайская нейросеть умудрилась обрушить не только весь мировой рынок нейросетей, но и фондовый рынок США.
Китайцы собрали простую и дешевую сеть «DeepSeek», которая оказалась гораздо эффективнее, чем «ChatGPT». Нюанс в том, что ChatGPT ориентирован на экстенсивное развитие, то есть на наращивание вычислительных мощностей нейросети. DeepSeek же основывается на более современных алгоритмах и принципиально новом подходе к разработке нейросетей.
Грубо говоря, там, где все технологические гиганты просто добавляли всё новые и новые процессорные блоки, разработчики DeepSeek сели и подумали, как сделать лучше программным способом. И сделали.
Основной плюс DeepSeek – он бесплатен. Он работает быстрее, лучше и надёжнее, чем ChatGPT, на который уже потратили сотни миллионов долларов. У него нет так называемых «галлюцинаций», то есть заведомо ложных и несуществующих выводов.
По данным анализа ведущих экспертов, DeepSeek использует на 75% меньше памяти в сравнении с основными конкурирующими нейросетями, и использует систему мультитокенов, позволяющую анализировать фразы целиком. В DeepSeek реализована модель специализированных экспертов и параметров, которые «включаются» только по мере необходимости. Как следствие, система может работать не на дорогостоящих серверных платформах, а на обычных игровых компьютерах, а стоимость её API на 95% дешевле, чем у ChatGPT.
По факту DeepSeek «одной левой» сломала всю отлаженную «западную» схему по превращению искусственного интеллекта в деньги, по которой якобы «только крупные tech-компании могут играть в ИИ». Оказывается, нет. И за короткий срок DeepSeek стал самым популярным бесплатным приложением в Apple App Store в США, обойдя ChatGPT.
Ну и вишенка на торте. Код DeepSeek публичный. Техническая документация находится в открытом доступе. Каждый человек может купить мощный компьютер и сделать себе свой собственный DeepSeek. Это не революция — это крупнейший прорыв в сфере ИТ со времён изобретения персонального компьютера, который «убил» мейнфреймы.
На фоне успехов DeepSeek в мире началась настоящая нейросетевая лихорадка, тут же перекинувшаяся на биржи. Только за сутки акции технологических гигантов, в первую очередь Nvidia, рухнул на несколько процентов, а это примерно триллион долларов. Вся бизнес-модель ИТ-гигантов была построена на принципе продажи супердорогих GPU (Graphics Processing Unit) с маржой 90%. Теперь оказалось, что эти GPU просто не нужны.
В ответ DeepSeek подвёргся масштабным кибератакам. В течение 28 января в сервисе было невозможно зарегистрироваться, десктопная версия нейросети не отвечал на запросы, хотя и загружалась.
Что дальше?
OpenAI, Anthropic и Nvidia просели, но не убиты. Само собой, они сделают выводы, переформатируют бизнес и выведут на рынок, вероятнее всего, бесплатные нейросети. А деньги будут зарабатывать на том же, на чём их зарабатывают поисковые системы: на анализа запросов пользователей и продаже этого анализа коммерсантам, то есть на формировании маркетинговых стратегий. Рано или поздно это должно было случиться — но этот момент все изо всех сил оттягивали.
Кстати, только в январе 2025 года Китай обошёл «Starlink» со своим проектом «Chang Guang Satellite Technology», достигнув скорости передачи данных со спутника на Землю в 100 гигабит в секунду. А китайская тороидальная установка для магнитного удержания плазмы с целью достижения условий, необходимых для протекания управляемого термоядерного синтеза (токамак) «EAST» смогла добиться поддержания температуры свыше 100 миллионов градусов в течение 1066 секунд, побив свой собственный предыдущий рекорд в 403 секунды. На основе подобного токамака будут создаваться плазменные электростанции, которые смогут давать практически бесплатную электроэнергию в неограниченных масштабах.
#ai#ии#deepseek
✴️DeepSeek наконец проснулись и выпустили новые модели
Выкатили аж две штуки: обычный V3.2 с возможностью включить/выключить мышление и V3.2 Speciale, у которого обещают лучшие ответы и тяжелый ризонинг. По бенчмаркам не плохо, подробнее:
DeepSeek-V3.2 — официальный преемник V3.2-Exp, доступен в App/Web/API и позиционируется как «ежедневный драйвер» с сбалансированным инференсом и длиной ответов. DeepSeek-V3.2-Speciale — максимум рассуждений и упор на сложные задачи; сейчас только API и без tool-use, чтобы сообщество смогло нормально оценить и воспроизвести результаты.
Speciale заявляет «золотой уровень» на математических и алгоритмических олимпиадах (IMO, CMO, ICPC WF, IOI-2025), а V3.2 — интегрирует «thinking» прямо в tool-use и поддерживает инструменты как в thinking-, так и в non-thinking-режимах. Важно: Speciale расходует больше токенов, но выигрывает там, где нужны глубокие цепочки рассуждений.
Ссылки на модели:DeepSeek-V3.2 (Hugging Face) • DeepSeek-V3.2-Speciale (Hugging Face)
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#deepseek
✴️DeepSeek-V3.2-Exp: новая экспериментальная модель с DSA и снижением цен на API на 50%+
DeepSeek-V3.2-Exp построена на базе V3.1-Terminus и впервые внедряет DeepSeek Sparse Attention (DSA) — разрежённую схему внимания, которая ускоряет обучение и инференс на длинном контексте при минимальном влиянии на качество. Модель уже доступна в приложении, на веб-версии и по API, а стоимость API снижена более чем на 50% — действует сразу.
По бенчмаркам V3.2-Exp держится на уровне V3.1-Terminus. Для корректного сравнения V3.1-Terminus остаётся во временном API до 15 октября 2025, 15:59 (UTC) — подробности в руководстве по A/B-сравнению. Обратную связь по DSA можно оставить через форму. Доступны материалы опенсорс-релиза: модель на Hugging Face и технический отчёт (PDF).
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#deepseek
✴️DeepSeek-V3.1-Terminus: стабильнее, чище язык, умнее агенты
Обновление DeepSeek-V3.1 → V3.1-Terminus доводит сильные стороны прошлой версии и закрывает самые частые отзывы пользователей: меньше языковой «каши» и больше надёжности на бенчмарках.
Что подтянули:
🟡Языковая консистентность. Снизили перемешивание CN/EN, исчезли случайные символы — ответы выглядят аккуратнее.
🟡Агенты. Усилили Code Agent и Search Agent — более точные правки кода и устойчивый поиск.
🟡Стабильность. На тестах выше надёжность и повторяемость ответов по сравнению с V3.1.
Модель уже доступна в приложении, в вебе и через API.
Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#новости#нейросети#deepseek