TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #8348 · 23 авг.

🐋 DeepSeek-V3.1 теперь можно запускать локально Оригинальная модель весила 715GB, но её удалось уменьшить до 170GBRAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF. ⚡ Огромная экономия памяти 👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1 👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀 @ai_machinelearning_big_data #DeepSeek#GGUF

Результаты

Найдено 10 похожих постов

Компания Маска xAI представила новую ИИ-модель Grok 3, которая превосходит #DeepSeek R1 и на уровне o1-pro от OpenAI за $200/месяц Всего за 1 год работы xAI удалось создать модель, конкурирующую с лидерами индустрии. Особенно впечатляет скорость развития и внедрение инновационных подходов, таких как режим Thinking. При этом команда продолжает активную работу над улучшением модели, обещая регулярные обновления. Сравнение с конкурентами: - Сопоставим по возможностям с o1-pro от OpenAI ($200/месяц) - Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking - В некоторых задачах превосходит GPT-4 - Даже мини-версия (Grok-3 mini) показывает конкурентные результаты Технические характеристики: - обучалась на 200,000 GPU - 10-кратное увеличение объема тренировки по сравнению с Grok 2 - Рекордный показатель ELO 1400 в Chatbot Arena - Лидирующие позиции в тестах: * AIME'24 (математика): 93% * GPQA (наука): 85% * LCB (программирование): 79% Стратегия Open Source от xAI: Компания планирует открывать код предыдущих версий после стабильного релиза новых. После полного релиза Grok 3 обещают открыть исходный код Grok 2. Ожидаемые сроки: в течение нескольких месяцев. Это интересно в контексте того, что сейчас в open-source доминируют Meta с Llama (запрещенная организация в РФ) и Mistral. Появление кода Grok может существенно изменить ландшафт открытых ИИ-моделей. Уникальные особенности: - Способность к нестандартному мышлению (попытка решить гипотезу Римана) - Эффективная работа с пространственными задачами - Улучшенные способности рассуждения при включенном режиме Thinking - Быстрая обработка и анализ научных статей. Ключевые особенности: 1. Thinking Mode: - Уникальная способность пошагового решения сложных задач - Успешно справляется с задачами, где другие модели дают сбой - Исправляет типичные ошибки базовой модели - Особенно эффективен в математических вычислениях 2. DeepSearch: - Продвинутая система поиска с перепроверкой источников - Успешно отвечает на вопросы о текущих событиях - Уровень сравним с Perplexity DeepResearch - Имеет некоторые ограничения в работе с Twitter/X - Иногда может создавать несуществующие URL Доступность: - Веб-версия на grok.com - Разрабатывается приложение SuperGrok - Планируется релиз голосового интерфейса - После стабильного релиза Grok 3 обещают открыть исходный код Grok 2 Учитывая темпы развития и уже достигнутые результаты, Grok 3 имеет все шансы стать одним из ключевых игроков на рынке ИИ. Однако, как отмечает Карпаты, необходимо дождаться более полных оценок в течение следующих недель для окончательных выводов.

Hashtags

Стартап SSI Ильи Суцкевера оценивают уже в $20млрд., идут переговоры о новых инвестициях Все это происходит на фоне того, как китайский #DeepSeek начал ломать бизнес-модели американских компаний с закрытыми ИИ-моделями. В ноябре 2024 года Илья заявил, что эра простого масштабирования ИИ закончилась. В декабре 2024 года Илья рассказал о будущем ИИ: - Появится настоящая самостоятельность в действиях - Системы научатся по-настоящему рассуждать - Их поведение станет менее предсказуемым (как у сильных шахматных программ, которые удивляют даже гроссмейстеров) - Они будут лучше учиться на небольшом количестве примеров - Разовьют понимание себя. SSI пока не генерирует выручку, но привлекает значительные инвестиции благодаря своей амбициозной миссии - разработке "безопасного суперинтеллекта", который будет превосходить человеческий интеллект, оставаясь при этом aligned (согласованным) с интересами человечества. SSI планирует выпустить свой продукт ~к 2028 году. В последний раз в сентябре 2024 стартап привлек $1 млрд при оценке в $5 млрд.

Hashtags

ForgetMe | Нейросети

@forgetmeai · Post #5668 · 01.12.2025, 12:00

✴️DeepSeek наконец проснулись и выпустили новые модели Выкатили аж две штуки: обычный V3.2 с возможностью включить/выключить мышление и V3.2 Speciale, у которого обещают лучшие ответы и тяжелый ризонинг. По бенчмаркам не плохо, подробнее: DeepSeek-V3.2 — официальный преемник V3.2-Exp, доступен в App/Web/API и позиционируется как «ежедневный драйвер» с сбалансированным инференсом и длиной ответов. DeepSeek-V3.2-Speciale — максимум рассуждений и упор на сложные задачи; сейчас только API и без tool-use, чтобы сообщество смогло нормально оценить и воспроизвести результаты. Speciale заявляет «золотой уровень» на математических и алгоритмических олимпиадах (IMO, CMO, ICPC WF, IOI-2025), а V3.2 — интегрирует «thinking» прямо в tool-use и поддерживает инструменты как в thinking-, так и в non-thinking-режимах. Важно: Speciale расходует больше токенов, но выигрывает там, где нужны глубокие цепочки рассуждений. Ссылки на модели:DeepSeek-V3.2 (Hugging Face) • DeepSeek-V3.2-Speciale (Hugging Face) 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5324 · 29.09.2025, 10:43

✴️DeepSeek-V3.2-Exp: новая экспериментальная модель с DSA и снижением цен на API на 50%+ DeepSeek-V3.2-Exp построена на базе V3.1-Terminus и впервые внедряет DeepSeek Sparse Attention (DSA) — разрежённую схему внимания, которая ускоряет обучение и инференс на длинном контексте при минимальном влиянии на качество. Модель уже доступна в приложении, на веб-версии и по API, а стоимость API снижена более чем на 50% — действует сразу. По бенчмаркам V3.2-Exp держится на уровне V3.1-Terminus. Для корректного сравнения V3.1-Terminus остаётся во временном API до 15 октября 2025, 15:59 (UTC) — подробности в руководстве по A/B-сравнению. Обратную связь по DSA можно оставить через форму. Доступны материалы опенсорс-релиза: модель на Hugging Face и технический отчёт (PDF). 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5272 · 22.09.2025, 14:10

✴️DeepSeek-V3.1-Terminus: стабильнее, чище язык, умнее агенты Обновление DeepSeek-V3.1 → V3.1-Terminus доводит сильные стороны прошлой версии и закрывает самые частые отзывы пользователей: меньше языковой «каши» и больше надёжности на бенчмарках. Что подтянули: 🟡Языковая консистентность. Снизили перемешивание CN/EN, исчезли случайные символы — ответы выглядят аккуратнее. 🟡Агенты. Усилили Code Agent и Search Agent — более точные правки кода и устойчивый поиск. 🟡Стабильность. На тестах выше надёжность и повторяемость ответов по сравнению с V3.1. Модель уже доступна в приложении, в вебе и через API. Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #новости#нейросети#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5149 · 04.09.2025, 15:30

✴️Bloomberg: DeepSeek готовит версию с «обучением на инструментах» По данным Bloomberg, компания DeepSeek готовит к скорому релизу модель, сфокусированную на tool use: вызовы внешних API, поиск в сети, запуск и проверка кода — всё как часть многошаговых agentic-сценариев. Подробности и точные сроки не раскрыты, но акцент на «инструментах» должен дать лучшее планирование шагов, более надёжные действия и рост пользы в реальных задачах — от исследований до автоматизации рабочих процессов. 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek

🚀 DeepSeek-V3.1: Шаг в эпоху агентов! Команда DeepSeek выкатила мощнейшее обновление своей и так уже нашей любимой модели — DeepSeek-V3.1! Это именно тот шаг в эпоху AI-агентов, которого мы ждали. Как я и говорил ранее — это один из самых недооценённых ассистентов на рынке, а теперь он ещё и умнее! Главная фишка — гибридный режим Think & Non-Think: одна модель может быстро отвечать на простые вопросы или глубоко «размышлять» над сложными, идеально планируя многошаговые задачи. Невероятно полезно для автоматизации, анализа данных и работы с кодом. Для разработчиков — просто рай: поддержка 128K контекста, совместимость с Anthropic API и, что я особенно ценю, — открытые веса на Hugging Face. API стал ещё удобнее. Это не просто апдейт, а реальный прорыв. Я рад, что мои дифирамбы насчёт фундаментальной мощности и агентских скиллов DeepSeek продолжают подтверждаться. Будущее ИИ за такими проектами! Куда бежать? ➡️Скорее пробуйте: www.deepseek.com И надеюсь, адептов DeepSeek станет чуть больше... #DeepSeek#ИИ#Нейросети https://t.me/semasci

Сумма технологий

@sum_tech · Post #164 · 29.01.2025, 02:39

DeepSeek R1 теперь можно запустить на относительно доступном оборудовании: революция в мире нейросетей Исследователи из компании Unsloth, специализирующейся на обучении и файнтюнинге языковых моделей, совершили прорыв в области оптимизации нейронных сетей. Им удалось сжать языковую модель DeepSeek R1 на 80% от её оригинального размера, что открывает новые возможности для использования мощных ИИ-решений на более доступном оборудовании. Теперь модель занимает всего 131 ГБ вместо первоначальных 720 ГБ, что делает её доступной для запуска даже на относительно слабых устройствах. При этом производительность модели остаётся на достаточно высоком уровне, что делает этот подход особенно ценным. Ключевым инструментом, позволившим достичь такого результата, стал метод динамической квантизации. Этот подход позволяет сохранить веса высокопроизводительных слоёв модели, в то время как менее значимые блоки сжимаются до 1,58 бита. Таким образом, удаётся минимизировать потери в точности и производительности, сохраняя при этом компактность модели. Благодаря этому сжатую версию DeepSeek R1 теперь можно запустить даже на CPU с 20 ГБ оперативной памяти, что делает её доступной для использования на мощных домашних компьютерах или серверах начального уровня. Это особенно важно для исследователей, разработчиков и компаний, которые не имеют доступа к дорогостоящему оборудованию, но хотят использовать передовые технологии искусственного интеллекта. Unsloth не только сжала модель, но и сделала её доступной для широкой аудитории. Сжатые версии DeepSeek R1 были опубликованы в публичном доступе, а также размещены подробные инструкции для их локального запуска. Это позволяет любому желающему, обладающему базовыми навыками работы с нейронными сетями, использовать модель для своих задач. Сжатие модели позволяет экономить не только место на диске, но и вычислительные ресурсы. Это особенно важно для компаний, которые хотят минимизировать затраты на инфраструктуру. Несмотря на значительное сжатие, модель сохраняет высокий уровень производительности. Это делает её пригодной для решения сложных задач, таких как генерация текста, анализ данных и даже создание контента. DeepSeek R1 — это одна из самых мощных языковых моделей, способная конкурировать с такими гигантами, как GPT-4 или Gemini. Её сжатие до 131 ГБ открывает новые горизонты для использования ИИ в различных сферах, включая образование, медицину, финансы и развлечения. Например, теперь небольшие компании или даже индивидуальные разработчики могут использовать DeepSeek R1 для создания собственных чат-ботов, анализа текстов или автоматизации бизнес-процессов. Сжатие DeepSeek R1 до 131 ГБ — это настоящая революция в мире нейронных сетей. Она демонстрирует, что даже самые мощные модели можно адаптировать для использования на более доступном оборудовании без значительной потери производительности. Это открывает новые возможности для разработчиков, исследователей и бизнеса, делая передовые технологии ИИ доступными для всех. #ai#ии#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #6046 · 24.04.2026, 07:58

✴️DeepSeek выкатила V4 Preview с контекстом в 1 миллион токенов DeepSeek открыла preview-линейку V4 и сразу выложила open weights. В серии две MoE-модели: DeepSeek-V4-Pro с 1,6 трлн параметров и 49 млрд активных и DeepSeek-V4-Flash с 284 млрд параметров и 13 млрд активных. Обе модели поддерживают контекст до 1M токенов, режимы thinking / non-thinking и уже доступны как в веб-интерфейсе DeepSeek, так и через API. Главный акцент релиза — длинный контекст и агентные задачи. DeepSeek пишет про новую схему внимания с token-wise compression и DeepSeek Sparse Attention, а V4-Pro подает как open-source флагман для reasoning, coding и agentic-сценариев. V4-Flash — более быстрый и дешевый вариант, который при этом тоже умеет работать с 1M контекстом и подходит для повседневных задач. Отдельно компания заявляет интеграцию V4 с агентными инструментами вроде Claude Code, OpenClaw и OpenCode. В API достаточно просто сменить имя модели на deepseek-v4-pro или deepseek-v4-flash. При этом deepseek-chat и deepseek-reasoner DeepSeek собирается полностью отключить 24 июля 2026 года в 15:59 UTC — сейчас эти маршруты уже фактически ведут на V4-Flash в обычном и thinking-режимах. Источники: Tech Report | Open Weights | API Docs 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #4980 · 13.08.2025, 18:01

👀DeepSeek «добавил» генерацию изображений… но не совсем В App Store для DeepSeek указано, что в версии 1.3.0 появилась поддержка создания изображений из диалогов, улучшен выбор и копирование текста, а также исправлены баги. Но в реальном приложении функция генерации изображений пока не работает. Похоже, её либо откатили, либо включат позже — возможно, в рамках подготовки к запуску новой модели. 🤑ForgetMe | Boosty | ForgetBench | ForgetGPT | ForgetAPI #новости#нейросети#deepseek