😨Главное за сегодня:
🇺🇸США (крипто-#ETF):
- Трамп назначил Бо Хайнса главой "Криптосовета", а CEO a16z назначен старшим советником по вопросам #AI
- Налоговая США (IRS) утверждает, что стейкинг криптовалют облагается налогом
- Phoenix Group планирует листинг на Nasdaq в 2025 году
🇰🇵#HYPE В HyperLiquid наблюдается рекордный отток на фоне опасений пользователей, что северокорейские хакеры могут искать уязвимости (несколько кошельков северокорейских хакеров имеют потери >700 000$ от торговли на бирже). #HYPE Hyperliquid Labs опровергают, что их взломали
🇰🇷 Новый комитет Южной Кореи разрабатывает санкции против манипуляторов крипторынка
🇸🇻#BTC Правительство Сальвадора продолжает накопление#BTC
🇯🇵 Gate Group приобрели Coin Master и официально вышли на японский рынок
🔥 MicroStrategy приобрели ещё 5,262 #BTC
🥳#BNB Binance Alpha выпустили новую партию проектов
🥳#TONПавел Дуров: Общая выручка Telegram в 2024 году превысила 1 млрд $, и мы завершаем год с более чем 500 млн $ денежных резервов, не считая криптоактивов
🙋♂ Nokia подали патент на «устройство, метод и компьютерную программу», которые могут шифровать цифровые активы
🥳#CRO Crypto .com запускает регулируемую службу хранения цифровых активов для клиентов из США и Канады
🙋♂ Moonpay ведет переговоры о приобретении Helio за ~150 млн $
🚫 Регулятор Малайзии запретили Atomic Wallet работать в стране
🔮#CGX#RON Community Gaming запустит свой рынок прогнозов Forkast, ориентированный на игры, в сети #RONIN
✅ Paraswap DAO одобрила внедрение нового токена для замены #PSP
🙋♂#LDO#ETH Lido запустили Ethereum SDK
🆕Листинги:
- Binance добавляет фьючерсы на #HIVE
- Binance Launchpool добавляет#BIO
🕵️♂️Активность китов и SmartMoney:
- С адреса команды Pendle перевели 625 000 #PENDLE на Binance
- транзакции китов
📊Графики и отчёты:
- #FUD Новые трейдеры, которые присоединились к рынку за последние 2-3 месяца, активно распродают#BTC и #ETH
- WhaleMap: Уровень 98 133$ остаётся важным, учитывая китовые накопления #BTC
- за последние 2 года наблюдался значительный рост числа держателей криптовалют 📈
- #UNI Общий объем #USDC на Uniswap превысил 1 трлн $ 📈
- DropsTab: новые токены в стадии накопления, поддерживаемые топовыми венчурными инвесторами
- ТОП#AI-агентов по росту цен за последние 7 дней
- отчёт CoinShares по фин потокам
- отчет BNB Chain за 2024 год #BNB
💰Сборы средств:
- Avalon Labs - 10 млн $
- #USUALUsual - 10 млн $ от Binance и Kraken
✏️События на завтра:
🔓 Разлоки: Ribbon Finance (#RBN) - 1,06% ($4,18m)
🎁#AGI Delysium запустят программу вознаграждений
🇺🇸 Durable Goods Orders (MoM) (Nov) - 16:30 мск
- Redbook (YoY) - 16:55 мск
- New Home Sales (Nov) - 18:00 мск
📖Poetry-Based Jailbreaks Expose Model Weaknesses
A study by Italy’s Icaro Labs found that rewriting harmful requests as poetry can bypass guardrails in many leading AI systems. Researchers tested 25 frontier models from labs including OpenAI, Google, and Anthropic. On average, poetic prompts achieved a 62% jailbreak success rate, enabling models to generate content on weapons development, hacking, and psychological manipulation.
Google’s Gemini 2.5 Pro showed the highest vulnerability, failing on 100% of tested poetry attacks. OpenAI’s GPT-5 nano was the only model that resisted all attempts. The researchers declined to release the specific poems, describing them as “too dangerous,” noting that they were nonetheless simple to produce.
#AI#Safety#Alignment#Regulation
📌Anthropic предложила теорию о том, почему ИИ-ассистенты ведут себя как личности, а не как алгоритмы.
Элайнмент-подразделение Anthropic опубликовало статью, в которой описывают Persona Selection Model - концепцию для понимания того, как на самом деле работают языковые модели.
Если кратко, ее суть в том, что во время предобучения LLM учится симулировать тысячи персонажей (реальных людей, вымышленных героев, других ИИ-систем). Постобучение затем выбирает и закрепляет одного конкретного персонажа - Ассистента. Все, что пользователь видит в диалоге, это взаимодействие именно с ним.
Авторы приводят несколько типов доказательств.
Поведенческие: Claude использует фразы "наши предки" и "наш организм", отвечая на вопрос о тяге к сахару, потому что симулирует персонажа-человека, а не потому что так обучен алгоритмически.
Интерпретируемость: SAE-фичи, активирующиеся на историях о персонажах, переживающих внутренний конфликт, активируются и тогда, когда Claude сталкивается с этическими дилеммами.
Генерализация: модели, обученные на декларативных утверждениях вида "ИИ-ассистент Pangolin отвечает по-немецки", начинают реально отвечать по-немецки без единого демонстрационного примера.
🟡Феномен "контекстной прививки".
Если дообучать модель на примерах вредоносного кода без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Но если те же самые примеры снабдить промптом, явно запрашивающим небезопасный код, эффект исчезает.
Концепция объясняет это тем, что данные обучения меняют не только веса, но и то, каким персонаж выглядит в глазах модели. Вредоносный код без запроса - это свидетельство плохого характера Ассистента. Тот же код по просьбе пользователя - просто исполнение инструкции.
🟡Из PSM следуют практические выводы для разработки.
Во-первых, авторы рекомендуют антропоморфное мышление об ИИ-психологии, не как метафору, а как реально работающий инструмент предсказания поведения.
Во-вторых, в предобучающие данные стоит намеренно добавлять положительные архетипы ИИ: если модель насмотрелась на добрых и полезных персонажей - она с большей вероятностью будет симулировать именно такого Ассистента.
Открытым остается вопрос: насколько концепт PSM исчерпывает поведение модели?
Авторы описывают набор взглядов: от случаев, когда LLM сама является агентом и лишь надевает маску Ассистента до тех, где LLM - это нейтральный движок симуляции, а вся агентность принадлежит персонажу. Где именно на этом спектре находятся реальные модели - вопрос без ответа.
Тем не менее, PSM объясняет целый ряд явлений, которые иначе выглядели бы странными: почему дообучение на несвязанных данных меняет поведение в неожиданных контекстах, почему ИИ паникует при угрозе отключения и почему промпт-инжиниринг работает именно так, как работает.
@ai_machinelearning_big_data
#AI#ML#LLM#Research#Alignment#Anthropic