📌Синтетика BeyondWeb: как 3B модель, обученная на ней, обходит 8B модели.
Есть такая проблема в обучении моделей, называется "Data Wall". Это когда просто добавлять все больше текста из интернета уже не помогает улучшать большие языковые модели. Синтетические данные стали решением, но как именно они работают, до сих пор было не до конца понятно.
Метод, разработанный DatologyAI переосмысливает синтетику и показывает, как она может быть эффективна. Модель на 3 миллиарда параметров, обученная на 180 миллиардах токенов BeyondWeb, работает лучше, чем 8-миллиардная модель на данных Cosmopedia.
BeyondWeb — это не просто еще один датасет, а целая методология, основанная на перефразировании источников. Иными словами, она не генерирует знания с нуля. Вместо этого берется существующий веб-контент и перерабатывается в более качественные и целевые форматы, например, в пары вопрос-ответ. Это дешевле и позволяет добиться большего разнообразия.
🟡Цифры.
На 14 тестах модель, обученная на BeyondWeb, показывает точность 63.7%. Это на 2.6% лучше, чем у конкурента Nemotron-Synth, и на 5.1% лучше, чем у Cosmopedia.
🟡Эффективность.
Чтобы достичь уровня RedPajama, BeyondWeb нужно в 7.7 раз меньше данных. А уровня Nemotron-Synth — в 2.7 раза меньше.
Ключевые выводы, к которым пришли авторы проведенного исследования, экспериментируя с фреймворком:
🟢Во-первых, синтетика — это не просто дистилляция знаний.
Простая суммаризация веб-текста для повышения плотности информации дает результат, сравнимый с Cosmopedia, но подход BeyondWeb значительно его превосходит.
🟢Во-вторых, синтетика может пробить "Data Wall", но не любая.
Наивное дописывание существующего текста дает лишь скромный прирост, а вот стратегически созданные данные, заполняющие пробелы знаний, могут превзойти потолок производительности, достигаемый на чисто естественных данных.
🟢В-третьих, качество исходных данных имеет решающее значение.
Перефразирование качественного веба дает гораздо лучшие результаты, чем облагораживание низкокачественного. Также важен стиль: в вебе всего 2.7% контента имеет диалоговый формат, хотя это основной сценарий использования LLM.
🟢В-четвертых - разнообразие.
При масштабировании до триллионов токенов именно разнообразие стратегий генерации синтетики (вопрос-ответ, MCQ, логические задачи и т.д.) позволяет избежать стагнации и продолжать улучшать модель.
🟡И самое интересное.
Эксперименты показали, что размер модели-генератора не так важен. Переход с 1 млрд. на 3 млрд. параметров дает прирост, а с 3 на 8 - уже почти нет. Значит, не нужны огромные модели, чтобы создавать качественные синтетические данные.
🟡Статья
🟡Arxiv
@ai_machinelearning_big_data
#AI#ML#LLM#BeyondWeb#DatologyAI
🌟AI Flow: концепция коллаборативного ИИ.
China Telecom совместно с TeleAI спроектировали фреймворк AI Flow, который рассматривает ИИ и сети передачи данных как единую систему.
AI Flow - это не просто очередной метод оптимизации, а цельная парадигма. Она предлагает отойти от идеи монолитного ИИ к распределенному и коллаборативному, где интеллект может перетекать по сети туда, где он в данный момент нужнее всего и где для него есть ресурсы.
🟡Архитектура "Устройство-Edge-Облако".
Идея в том, чтобы разумно распределять нагрузку: простейшие операции выполняются на самом гаджете, более сложные и требующие низкой задержки — на ближайшем edge-сервере, а самое тяжелые задачи и ресурсоемкий инференс остаются в облаке.
AI Flow предлагает конкретные механизмы для такой концепции - спекулятивное декодирование, где легкая модель на устройстве быстро генерирует черновик ответа, а мощная модель на эдже его лишь верифицирует и корректирует.
🟡Основа архитектуры - "семейные модели" (familial models).
Это не просто набор моделей разного размера, а целое семейство с архитектурно согласованными скрытыми представлениями.
Маленькая, средняя и большая модели устроены настолько похоже, что они могут бесшовно передавать друг другу эстафету инференса.
Модель на смартфоне обрабатывает первые несколько слоев, а затем ее промежуточный результат подхватывает модель на сервере и продолжает вычисления ровно с того же места, без какого-либо дополнительного преобразования данных.
🟡Эмерджентный интеллект через сотрудничество моделей.
Пайплайн AI Flow делает возможным взаимодействие разных моделей, от LLM и VLM до диффузионных генераторов.
Через такую коллаборацию рождается эмерджентный интеллект – коллективная интуиция, превышающая возможности отдельных сетей, где несколько агентов генерируют черновые решения, затем сервер-оркестратор выбирает лучшие фрагменты, объединяет их и возвращает итоговый ответ для уточнения с учетом контекста каждого из них.
В этом и фишка: после такой синергии ответ становится богаче и более осмысленным, ведь сходятся разные точки зрения и узкопрофильные знания моделей-участников.
▶️В открытом доступе опубликована предварительная версия модели Ruyi-7B (AI-Flow-Ruyi-7B-Preview) из "семейных моделей".
Ее крупнейшая ветвь содержит 7 млрд. параметров и способна порождать early-exit подсети с эффективным числом параметров в 3, 4, 5 и 6 млрд:
🟢Branch 3B/4B: простые сценарии диалога с минимальными требованиями по ресурсам;
🟢Branch 5B/6B: повседневные универсальные задачи, баланс возможностей и отзывчивости;
🟢Branch 7B: решение сложных проблем, повышенные требования к ресурсам.
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#LLM#AIFlow#TeleAI
🚀 Bitcoin Leads in Social Dominance with Ethereum and XRP Following
Bitcoin has emerged as the leader in social dominance, capturing 33.55% of the market, according to NS3.AI. Ethereum follows with an 11.85% share, while XRP holds 2.6%. In terms of AI search volume, both Solana Foundation and Ethereum recorded 11%, surpassing Aave, Polygon, and Bittensor.
#Bitcoin#Ethereum#XRP#Solana#Aave#Polygon#Bittensor#Cryptocurrency#AI#MarketShare#SocialDominance#BTC#ETH
🆕Krea AI yangi Krea AI Chat funksiyasini taqdim etmoqda
Endi foydalanuvchilar bitta qulay chat interfeysida rasmlar, videolar yaratish va boshqa Krea AI funksiyalaridan foydalanishlari mumkin. Yangi funksiya Deepseek sun’iy intellekt modeli asosida ishlaydi va kontent yaratish jarayonini osonlashtiradi.
📌Bu funksiya yaqin kunlarda foydalanish uchun taqdim etiladi.
#AI#Texnologiyalar#KreaAI#SuniyIntellekt#KunUzAI
Открыл комментарии, ведём себя хорошо.
Поясню некоторые моменты.
1. Промпты не дам, но по деталям попробую подсказать.
2. Мои работы помечены тэгом #voodoont - остальное (например вот этот) - просто красивые арты с открытых источников
3. участвую в Нейробаттле и надоедаю вам своими однотипными работами для него (вон аж трое отписались 🥺)
#some
#illustration
#арт#art#ai#sci_fi#warhammer40k#astartes