TGTGInsighttelegram intelligenceLIVE / telegram public index
← КриптоАтака 👀

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @cryptoattack · Post #20708 · 23 дек.

😨Главное за сегодня: 🇺🇸США (крипто-#ETF): - Трамп назначил Бо Хайнса главой "Криптосовета", а CEO a16z назначен старшим советником по вопросам #AI - Налоговая США (IRS) утверждает, что стейкинг криптовалют облагается налогом - Phoenix Group планирует листинг на Nasdaq в 2025 году 🇰🇵#HYPE В HyperLiquid наблюдается рекордный отток на фоне опасений пользователей, что северокорейские хакеры могут искать уязвимости (несколько кошельков северокорейских хакеров имеют потери >700 000$ от торговли на бирже). #HYPE Hyperliquid Labs опровергают, что их взломали 🇰🇷 Новый комитет Южной Кореи разрабатывает санкции против манипуляторов крипторынка 🇸🇻#BTC Правительство Сальвадора продолжает накопление#BTC 🇯🇵 Gate Group приобрели Coin Master и официально вышли на японский рынок 🔥 MicroStrategy приобрели ещё 5,262 #BTC 🥳#BNB Binance Alpha выпустили новую партию проектов 🥳#TONПавел Дуров: Общая выручка Telegram в 2024 году превысила 1 млрд $, и мы завершаем год с более чем 500 млн $ денежных резервов, не считая криптоактивов 🙋‍♂ Nokia подали патент на «устройство, метод и компьютерную программу», которые могут шифровать цифровые активы 🥳#CRO Crypto .com запускает регулируемую службу хранения цифровых активов для клиентов из США и Канады 🙋‍♂ Moonpay ведет переговоры о приобретении Helio за ~150 млн $ 🚫 Регулятор Малайзии запретили Atomic Wallet работать в стране 🔮#CGX#RON Community Gaming запустит свой рынок прогнозов Forkast, ориентированный на игры, в сети #RONIN ✅ Paraswap DAO одобрила внедрение нового токена для замены #PSP 🙋‍♂#LDO#ETH Lido запустили Ethereum SDK 🆕Листинги: - Binance добавляет фьючерсы на #HIVE - Binance Launchpool добавляет#BIO 🕵️‍♂️Активность китов и SmartMoney: - С адреса команды Pendle перевели 625 000 #PENDLE на Binance - транзакции китов 📊Графики и отчёты: - #FUD Новые трейдеры, которые присоединились к рынку за последние 2-3 месяца, активно распродают#BTC и #ETH - WhaleMap: Уровень 98 133$ остаётся важным, учитывая китовые накопления #BTC - за последние 2 года наблюдался значительный рост числа держателей криптовалют 📈 - #UNI Общий объем #USDC на Uniswap превысил 1 трлн $ 📈 - DropsTab: новые токены в стадии накопления, поддерживаемые топовыми венчурными инвесторами - ТОП#AI-агентов по росту цен за последние 7 дней - отчёт CoinShares по фин потокам - отчет BNB Chain за 2024 год #BNB 💰Сборы средств: - Avalon Labs - 10 млн $ - #USUALUsual - 10 млн $ от Binance и Kraken ✏️События на завтра: 🔓 Разлоки: Ribbon Finance (#RBN) - 1,06% ($4,18m) 🎁#AGI Delysium запустят программу вознаграждений 🇺🇸 Durable Goods Orders (MoM) (Nov) - 16:30 мск - Redbook (YoY) - 16:55 мск - New Home Sales (Nov) - 18:00 мск

Резултати

Пронајдени 1 слични објави

Пребарај: #datologyai

当前筛选 #datologyai清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8318 · 20.08.2025 г., 10:05

📌Синтетика BeyondWeb: как 3B модель, обученная на ней, обходит 8B модели. Есть такая проблема в обучении моделей, называется "Data Wall". Это когда просто добавлять все больше текста из интернета уже не помогает улучшать большие языковые модели. Синтетические данные стали решением, но как именно они работают, до сих пор было не до конца понятно. Метод, разработанный DatologyAI переосмысливает синтетику и показывает, как она может быть эффективна. Модель на 3 миллиарда параметров, обученная на 180 миллиардах токенов BeyondWeb, работает лучше, чем 8-миллиардная модель на данных Cosmopedia. BeyondWeb — это не просто еще один датасет, а целая методология, основанная на перефразировании источников. Иными словами, она не генерирует знания с нуля. Вместо этого берется существующий веб-контент и перерабатывается в более качественные и целевые форматы, например, в пары вопрос-ответ. Это дешевле и позволяет добиться большего разнообразия. 🟡Цифры. На 14 тестах модель, обученная на BeyondWeb, показывает точность 63.7%. Это на 2.6% лучше, чем у конкурента Nemotron-Synth, и на 5.1% лучше, чем у Cosmopedia. 🟡Эффективность. Чтобы достичь уровня RedPajama, BeyondWeb нужно в 7.7 раз меньше данных. А уровня Nemotron-Synth — в 2.7 раза меньше. Ключевые выводы, к которым пришли авторы проведенного исследования, экспериментируя с фреймворком: 🟢Во-первых, синтетика — это не просто дистилляция знаний. Простая суммаризация веб-текста для повышения плотности информации дает результат, сравнимый с Cosmopedia, но подход BeyondWeb значительно его превосходит. 🟢Во-вторых, синтетика может пробить "Data Wall", но не любая. Наивное дописывание существующего текста дает лишь скромный прирост, а вот стратегически созданные данные, заполняющие пробелы знаний, могут превзойти потолок производительности, достигаемый на чисто естественных данных. 🟢В-третьих, качество исходных данных имеет решающее значение. Перефразирование качественного веба дает гораздо лучшие результаты, чем облагораживание низкокачественного. Также важен стиль: в вебе всего 2.7% контента имеет диалоговый формат, хотя это основной сценарий использования LLM. 🟢В-четвертых - разнообразие. При масштабировании до триллионов токенов именно разнообразие стратегий генерации синтетики (вопрос-ответ, MCQ, логические задачи и т.д.) позволяет избежать стагнации и продолжать улучшать модель. 🟡И самое интересное. Эксперименты показали, что размер модели-генератора не так важен. Переход с 1 млрд. на 3 млрд. параметров дает прирост, а с 3 на 8 - уже почти нет. Значит, не нужны огромные модели, чтобы создавать качественные синтетические данные. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#BeyondWeb#DatologyAI