😨Главное за сегодня:
🇺🇸США (крипто-#ETF):
- Трамп назначил Бо Хайнса главой "Криптосовета", а CEO a16z назначен старшим советником по вопросам #AI
- Налоговая США (IRS) утверждает, что стейкинг криптовалют облагается налогом
- Phoenix Group планирует листинг на Nasdaq в 2025 году
🇰🇵#HYPE В HyperLiquid наблюдается рекордный отток на фоне опасений пользователей, что северокорейские хакеры могут искать уязвимости (несколько кошельков северокорейских хакеров имеют потери >700 000$ от торговли на бирже). #HYPE Hyperliquid Labs опровергают, что их взломали
🇰🇷 Новый комитет Южной Кореи разрабатывает санкции против манипуляторов крипторынка
🇸🇻#BTC Правительство Сальвадора продолжает накопление#BTC
🇯🇵 Gate Group приобрели Coin Master и официально вышли на японский рынок
🔥 MicroStrategy приобрели ещё 5,262 #BTC
🥳#BNB Binance Alpha выпустили новую партию проектов
🥳#TONПавел Дуров: Общая выручка Telegram в 2024 году превысила 1 млрд $, и мы завершаем год с более чем 500 млн $ денежных резервов, не считая криптоактивов
🙋♂ Nokia подали патент на «устройство, метод и компьютерную программу», которые могут шифровать цифровые активы
🥳#CRO Crypto .com запускает регулируемую службу хранения цифровых активов для клиентов из США и Канады
🙋♂ Moonpay ведет переговоры о приобретении Helio за ~150 млн $
🚫 Регулятор Малайзии запретили Atomic Wallet работать в стране
🔮#CGX#RON Community Gaming запустит свой рынок прогнозов Forkast, ориентированный на игры, в сети #RONIN
✅ Paraswap DAO одобрила внедрение нового токена для замены #PSP
🙋♂#LDO#ETH Lido запустили Ethereum SDK
🆕Листинги:
- Binance добавляет фьючерсы на #HIVE
- Binance Launchpool добавляет#BIO
🕵️♂️Активность китов и SmartMoney:
- С адреса команды Pendle перевели 625 000 #PENDLE на Binance
- транзакции китов
📊Графики и отчёты:
- #FUD Новые трейдеры, которые присоединились к рынку за последние 2-3 месяца, активно распродают#BTC и #ETH
- WhaleMap: Уровень 98 133$ остаётся важным, учитывая китовые накопления #BTC
- за последние 2 года наблюдался значительный рост числа держателей криптовалют 📈
- #UNI Общий объем #USDC на Uniswap превысил 1 трлн $ 📈
- DropsTab: новые токены в стадии накопления, поддерживаемые топовыми венчурными инвесторами
- ТОП#AI-агентов по росту цен за последние 7 дней
- отчёт CoinShares по фин потокам
- отчет BNB Chain за 2024 год #BNB
💰Сборы средств:
- Avalon Labs - 10 млн $
- #USUALUsual - 10 млн $ от Binance и Kraken
✏️События на завтра:
🔓 Разлоки: Ribbon Finance (#RBN) - 1,06% ($4,18m)
🎁#AGI Delysium запустят программу вознаграждений
🇺🇸 Durable Goods Orders (MoM) (Nov) - 16:30 мск
- Redbook (YoY) - 16:55 мск
- New Home Sales (Nov) - 18:00 мск
🎬Pika 2.2 videogeneratori yangi darajaga chiqdi!
Endi Pika sun’iy intellekt yordamida 10 soniyagacha bo‘lgan Full HD videolar yaratishi mumkin! Yangilangan versiyada asosiy kadrlar orasidagi o‘tishlarni ham sozlash imkoni paydo bo‘ldi – bu videolarni yanada tabiiy va silliq qilishga yordam beradi.
🚀Sinab ko‘rish:pika.art
#AI#VideoGenerator#Pika
#Opera#AI#browser#with#VPN
Join the Opera: AI browser with VPN beta on ✈️#TestFlight
🔗 Link: https://testflight.apple.com/join/ASrCFVHB
Shared by Dimitri
🚀$XROCK is now on CoinMarketCap and CoinGecko
$XROCK token appeared on CoinMarketCapandCoinGecko, the largest crypto platforms. This means that you can now track all project information on independent sites in a convenient format.
CoinMarketCap is the world's most popular cryptocurrency price tracking website, with over 350 million monthly visitors !
CoinGecko is one of the largest aggregators of information related to cryptocurrencies, tokens, crypto exchanges, NFTs, DeFi, which offers more than 11 thousand coins
⭐ Placing on these platforms will allow you to attract the attention of even more users and conquer new blockchain peaks!
#TON#xRocket#token
📌Почему языковые модели галлюцинируют.
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
🟡Все начинается еще на претрейне.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.
Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
🟡Эксперименты это подтверждают.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью).
В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7.
При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался.
🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF?
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.
Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.
🟡Что делать инженерам.
OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.
🔜Читать статью полностью
@ai_machinelearning_big_data
#AI#ML#LLM#Research#OpenAI