Post #733

@lsbcurator

Куратор из ЛСБ

Прегледи306Број прегледа

Објављено30. јан30.01.2025. 23:46

Садржај

Садржај поста

Занятное мнение о главных причинах резкого прорыва DeepSeek на рынок нейронок из поста в Вастрик Клубе: Чем DeepSeek-R1 так зацепила рынок? Неожиданный игрок Обычно, когда речь заходит об ИИ, в голову приходят OpenAI, Google, Microsoft, Meta — все эти гиганты с огромными командами и бюджетами в сотни миллионов (а то и миллиарды) долларов. Казалось бы, конкурировать с ними невозможно. И тут — бац! — 47 человек из Ханчжоу берут и выпускают модель, которая показывает сравнимые результаты с GPT-O1!!!, но стоит им это в 50 раз дешевле. Открытый доступ вместо «закрытых платных решений» DeepSeek-R1 выложили бесплатно и с открытым исходным кодом. То есть каждый желающий может: Скачать и попробовать запустить у себя (если есть компьютер с 8 супер GPU). Копаться внутри и улучшать под свои задачи. Для многих компаний (в том числе стартапов, которым не по карману GPT-4o API) это не просто экономия, а реальный шанс войти в клуб «хай-перформанс AI». «AI против AI» и прочие фишки оптимизации Немного деталей о том, как DeepSeek-R1 смогли так сильно ужать бюджет обучения — 5,6 млн долларов против сотен миллионов у конкурентов (на самом деле там больше денег чем 6M конечно потратили, но официальная версия такая): AI обучает сам себя. В крупных корпорациях тысячи людей сидят и размечают данные, помогают модели отвечать корректнее, исправляют ошибки. В DeepSeek большую часть этого процесса отдали самой нейросети. Селективная активация. GPT-4o всегда тянет все «мозги» при любом вопросе, а R1 включает только нужные участки сети. Меньше вычислений — меньше расходов. Дистилляция. Многие топ-лабы давно играются с идеей «ужатия» нейросетей без потери качества, но DeepSeek, видимо, довели её до ума, снизив объём памяти до -75%. Они просто подумали: А что будет, если обучить модель с точностью в четыре раза меньше. Меньше памяти, меньше времени , меньше электричества. А результат оказался ниже только на 10 процентов. Самокоррекция. Вместо перманентного «дообучения» на новых ошибках, R1 генерирует несколько ответов и сама выбирает лучший. Представьте ученика, который перед сдачей экзамена пробегает варианты в уме и выбирает оптимальный. Особенно интересно вот это, про модель монетизации: Хедж-фонд вместо «классического AI-стартапа» Как выяснилось, High-Flyer — это хедж-фонд, который зарабатывает на биржевой волатильности. По сути, когда цена акций где-то скачет, они на этом выигрывают. И им не надо делать платные подписки на свой AI, как это делают OpenAI или Google — у них другая бизнес-модель. Монетизация у них получается через колебания рынка, а не через платный доступ к модели. То есть у DeepSeek нет причин «закрывать» код и продавать лицензии; наоборот, им выгодно посеять панику и хайп, ведь это увеличивает рыночные скачки.