🤗Кто реально двигает open-source ИИ: анализ топ-50 самых скачиваемых моделей на Hugging Face
Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.
🔥Главное:
📦Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.
Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.
📉Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M
Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.
🧠Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%
Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%
Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%
📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.
🇺🇸Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок
Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.
🟠Почитать полностью:https://huggingface.co/blog/lbourdois/huggingface-models-stats
@ai_machinelearning_big_data
#AI#HuggingFace#OpenSource#ML#Research#LLM#AITrends
📚Хороший гайд по рынку AI от Translink Capital.
Тот случай, когда это не пост по отчету, а именно сам отчет.
Kelvin Mu из Translink Capital (давно и неплохо делает аналитику по сегменту) сделал чтиво по рынку искусственного интеллекта на 42 страницы. Тот случай, когда минимум графиков, которые мы любим, зато отчет достаточно емкий. Вдруг вы пропустили что-то по теме, это точно поможет расставить по полочкам. Понятно, что где в каком сегменте происходит.
Структура:
▪️Infrastructure Layer
▪️Model Layer
▪️Tooling Layer
▪️Application Layer
▪️Investments and M&A
▪️Other AI trends
Могу лишь еще лично направить почитать про тренд по Inference optimization в Tooling Layer, где сказано про наш уже бывший стартап Deci AI, который купила NVIDIA, но вообще каждый найдет там что-то свое. Очень кропотливо собраны тренды.
@proVenture
#ai#research
💯The AI 100 2023: The top people in artificial intelligence.
❗️Сразу попрошу вас – чтобы было интереснее, сначала прочитайте пост, а потом посмотрите приложенный к посту скриншот, не наоборот, а то спойлеры 😁
Любопытный список, на анализ которого я потратил, возможно, больше времени, чем нужно. Но думаю, вам тоже будет интересно. Business Insider подготовил и выкатил список топ-100 людей в AI версии 2023 года. И без paywall, так что я побежал читать. Мне захотелось посмотреть, кто это – и не просто поглазеть, а проанализировать немного.
Я прошелся по каждому из списка и вот что получилось:
1/ В списке представители следующих групп:
▪️43 из стартапов
▪️25 из корпораций
▪️14 из университетов и исследовательских центров
▪️5 из non-profit организаций
▪️4 VC
▪️9 прочее
2/ География жутко концентрирована (P.S. география – это то, где люди находятся сейчас, а не откуда они, почти всегда данные из Linkedin или Crunchbase):
▪️85 из США
▪️7 из Канады
▪️8 из остальных 8 стран
3/ Среди 43 представителей стартапов наиболее встречающиеся направления следующие:
▪️7 Generative AI
▪️6 Biotech & HealthTech
▪️4 AI Audio and video production
▪️3 Conversational AI
▪️2 ML Tools
▪️2 Big Data
▪️2 Edu Tech
▪️2 Defense Tech
4/ Какие компании представлены чаще всего:
▪️5 Amazon
▪️5 Google (совместно с DeepMind)
▪️2 OpenAI
▪️2 Anthropic
▪️2 Hugging Face
5/ Несколько любопытных фактов по списку:
🔹 В списке есть два представителя компаний, которые производят контент для фильмов и т.п. Это прикольно. Я их объединил в одну группу с классическим стартапами, которые генерят видео или аудио под запрос;
🔹 Всего 1 представитель государственного сектора, зато 2 из инвестбанков и 2 из прессы (Bloomberg и NYT);
🚀 Есть 1 человек из пространства СНГ так сказать. Это Карен Симонян из стартапа Inflection AI. Он живет в Армении, а Infection AI – это “personal AI”, они разрабатывают ассистента, собеседника, партнера и т.п. для каждого. Самое ошеломительное, последний раунд Infection AI поднял на $1.3B в конце июня 2023 года (🤑 WAT!?), а лид инвесторами стали Microsoft и Nvidia. Карен джан и команда, мои поздравления, если вы это читаете!
❓Казалось бы, что еще может быть интереснее для нас с вами? Но есть еще кое-что. Есть один человек в списке, деятельность которого можно описать как “comedian and actor”. Это Сара Сильверман. Так вот, откуда такой человек в списке?
Сара была первым человеком, который подал в суд на разработчиков LLM моделей за то, что они использовали ее работы, защищенные вроде как авторским правом. Потом это переросло в class action, к ней присоединились ее соавторы, создатели The Game of Thrones и другие. Авторы рейтинга считают, что несмотря на то, что суд может длиться годами, для нас с вами действия Сары могут послужить источником того, что мы сможем понять более детально, как работают такие модели (наверное, из материалов суда), а также позволят авторам уникального контента понимать, что им делать в противостоянии с гигантскими моделями генераторов контента и как защитить себя.
Вот такой любопытный список, изучайте: https://www.businessinsider.com/the-ai-100-2023-the-people-who-make-ai-intelligent-2023-10
@proVenture
#research#ai
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML
ChatGPT для климатических вопросов и ответов
На Hugging Face есть милейший чат бот, который отвечает на все вопросы, касающиеся климата. Работает с помощью больших языковых моделей и при взаимодействии с ChatGPT API.
Бот обучен в основном на документах межправительственной комиссии по изменению климата (IPCC), поэтому не понимает, когда его спрашивают про что-то другое. Задаете вопрос, получаете развернутый ответ со ссылками на документы IPCC. Это интересный пример внедрения больших языковых моделей обученных на корпусе внутренних документов.
#AI#climate#LLM
🧵 Хочешь делать видео с нейросетями, но нет $300+ на пак нейронок в месяц?Есть рабочий лайфхак!
Veo2, FramePack, Runway — звучит круто, но что делать, если ты студент с дохлым ноутом и нулём на карте?
Я нашёл выход для тех, кто сейчас не может себе позволить платные нейросетки.
🎒 Мне всё чаще пишут:
— Где генеришь?
— Какой сервис юзать вместо Runway?
— Как попасть на Veo 2?
— Блин чёт дорого, а есть за бесплатно?
И вот что я говорю всем:
💸 Платные инструменты — лучше.
У них крутое качество, настройка, скорость.
Я сам за сервисы, если есть возможность.
Но если её нет...
🧬Тогда смотрим на Wan 2.1 Plus.
Это не замена платным нейросетям.
Это — вынужденный, но рабочий вариант.
Что умеет:
🦾 Бесконечные кредиты генераций
🦾 Хорошая физика объектов
🦾 Можно вставлять референсы
🦾 Дают временный доступ к редким фичам (смешивание кадров)
Минусы
🕐 Долгая генерация (больше 40 мин...)
#opensource | AcidCrunch
Mistral 3: мультимодальный, открытый, но... уже догоняющий
Французская Mistral AI выпустила семейство моделей Mistral 3. Главное:
✅ Mistral Large 3 (41B) — мультимодальная (текст+изображение), открытая (Apache 2.0). Похожа архитектурно на DeepSeek V3.
✅Ministral (14B, 8B, 3B) — тоже мультимодальные, компактные.
Но грустная правда: это не прорыв. Модель на бенчах лишь сравнивается с DeepSeek-V3.1 и Kimi K2, которые уже стали стандартом. Пока европейцы готовили релиз, в Китае вышла уже следующая итерация.
Архитектурное «вдохновение» у китайских коллег и скромные результаты делают релиз скорее шагом в догоняющих. В опенсорс-гонке ИИ Китай пока уверенно рулит, задавая темп и планку.
Европейский ИИ стабилен: круассаны есть, прорывов нет.
#MistralAI#ИИ#Opensource#LLM
https://t.me/semasci
🔍Доля AI в поиске занимает 6%. А что еще интересного?
Стечение обстоятельств, а также тот факт, что у меня теперь есть Perplexity Pro на год, сподвигли посмотреть, что там на рынке поиска-то происходит. Еще пару лет назад никто не мог подумать, что этот рынок можно как-то переделывать.
1/ Итак, поиск информации вместо Google и других поисковых систем уже проходит через AI решения. Как минимум есть вышеупомянутый Perplexity, а также SearchGPT от OpenAI и поиск через чаты с другими моделями, которые имеют доступ в интернет.
2/ Информации не очень много, но можно запомнить следующее:
▪️Google занимает от 89% поиска как search engine до 91% поиска по разным данным, далее (как ни удивительно) следует Bing с 3.4-4.2%, остальные еще меньше;
▪️Доля AI решений сейчас составляет 6%, но по выручке (в деньгах) это 1%;
▪️Доля Perplexity при этом – 0.5% поиска. Это довольно много, например, доля DuckDuckGo в поиске составляет 0.54%-0.69%.
3/ Доля AI поиска может вырасти с 6% сегодня до 14% в 2028 году.
4/ Кому интересно почитать подробнее про Perplexity, можете зайти вот на этот сайт. Там собрана информация про их бизнес и показатели, например, $40M выручки, 10M MAU, 300M поисковых запросов в 2023 году и так далее.
5/ А вот в этой статье есть прикольное сравнение конвенциального поиска с поиском через AI. Например, результаты поиска через SearchGPT от OpenAI только на 46% совпадают с поиском через Google и на 73% с поиском через Bing.
@proVenture
#research#ai#trends
#AI
Немного ИИ-теории
❗️В недавнем иске против компании OpenAI Илон Маск утверждал, что GPT-4 является ранним AGI, по сути равным человеческому интеллекту.
Что же такое AGI и когда он появится?
👤Сэм Альтман, CEO Open AI определяет AGI (artificial general intelligence) как интеллект, равный уровню обычного человека, который можно было бы принять в команду как сотрудника. Также популярно определение AGI как «системы, способной выполнить любую когнитивную задачу, доступную человеку».
📎Для справки: существует несколько видов (уровней развития) ИИ, а именно узкий ИИ (narrow, ANI), общий ИИ (genreal, AGI) и супер ИИ (super AI, ASI).
⏲Исследователи никак не могут прийти к консенсусу относительно даты появления AGI. По результатам Expert Survey on Progress in AI, существует 50% шанс того, что AGI появится до 2059 года. Тем не менее, поле ИИ изменяется постоянно и становится сложным оставаться в курсе событий.
⭐️Для этого мы нашли крупнейшее русскоязычное AGI-сообщество agirussia.org — у них есть канал и группа в Telegram.
🌐еще проходят еженедельные онлайн-семинары по тематике AGI на русском языке, записи семинаров за последние несколько лет доступны на YouTube и их сообществе в ВК.
Держим руку на пульсе ИИ⭐
⭐️Автор, Анна, @qcuqueen
Хакатончик от Xeek
Two Birds, One Neural Network - так называется новый хакатон от Xeek в области Generative AI. Звучит как-будто нужно сделать свой Dalle-E2, но на самом деле, задача выглядит немного иначе. По условиям хакатона, участникам нужно сделать нейронную сеть, которая максимизирует разнообразие генерируемых результатов, отвечающих двум условиям. Авторы хакатона проводят параллели с добавлением двух геофизических измерений для ограничения сценариев геологических моделей. Буквально, нужно построить нейронную сеть, которая генерирует разнообразные значения x0, x1, сохраняя при этом их природу в виде нисходящих или восходящих прямых линий, удовлетворяющих заданным функциям y1, y2, как показано на картинке.
Более подробное описание - тут. Призовой фонд $40К (первое место $19.5K).
#hackathon#AI#ML