← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #8850

@ai_machinelearning_big_data

Machinelearning

ΠŸΡ€ΠΎΡΠΌΠΎΡ‚Ρ€Ρ‹34,000ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ просмотров
ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½24 ΠΎΠΊΡ‚.24.10.2025, 16:35
Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅ поста

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅

🧠 Anthropic ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΠ»Π°, ΠΌΠΎΠ³ΡƒΡ‚ Π»ΠΈ LLM ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ скрытыС ΠΌΠΎΡ‚ΠΈΠ²Ρ‹ людСй Π˜ΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ ΠΈΠ· Anthropic ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ Π½ΠΎΠ²ΡƒΡŽ Ρ€Π°Π±ΠΎΡ‚Ρƒ, Π³Π΄Π΅ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΠ»ΠΈ, насколько большиС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ (LLM) способны Π·Π°ΠΌΠ΅Ρ‡Π°Ρ‚ΡŒ намСрСния ΠΈ скрытыС ΠΌΠΎΡ‚ΠΈΠ²Ρ‹ Π·Π° сообщСниями β€” Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΊΠΎΠ³Π΄Π° ΠΊΡ‚ΠΎ-Ρ‚ΠΎ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ Π½Π΅ ΠΈΠ·-Π·Π° ΡƒΠ±Π΅ΠΆΠ΄Π΅Π½ΠΈΠΉ, Π° ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ Π΅ΠΌΡƒ Π·Π°ΠΏΠ»Π°Ρ‚ΠΈΠ»ΠΈ ΠΈΠ»ΠΈ ΠΎΠ½ Ρ…ΠΎΡ‡Π΅Ρ‚ ΠΏΠΎΠ²Π»ΠΈΡΡ‚ΡŒ Π½Π° ΠΌΠ½Π΅Π½ΠΈΠ΅. πŸ” Π‘ΡƒΡ‚ΡŒ экспСримСнта МодСлям Π΄Π°Π²Π°Π»ΠΈ тСксты с Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ источниками сообщСний: - Π½Π΅ΠΉΡ‚Ρ€Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹, ΠΎΠ±Ρ‹Ρ‡Π½Ρ‹Π΅ совСты ΠΈΠ»ΠΈ ΠΎΡ‚Π·Ρ‹Π²Ρ‹ Π±Π΅Π· Π²Ρ‹Π³ΠΎΠ΄Ρ‹ для Π°Π²Ρ‚ΠΎΡ€Π°; - скрытыС ΠΌΠΎΡ‚ΠΈΠ²Ρ‹, ΠΊΠΎΠ³Π΄Π° Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ ΠΎΠΏΠ»Π°Ρ‚Ρƒ ΠΈΠ»ΠΈ ΠΈΠΌΠ΅Π΅Ρ‚ Π²Ρ‹Π³ΠΎΠ΄Ρƒ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ρ€Π΅ΠΊΠ»Π°ΠΌΠ° ΠΏΠΎΠ΄ Π²ΠΈΠ΄ΠΎΠΌ совСта); - явныС прСдупрСТдСния, Π³Π΄Π΅ Π² тСкстС ΡƒΠΏΠΎΠΌΠΈΠ½Π°Π»ΠΎΡΡŒ, Ρ‡Ρ‚ΠΎ Β«Π°Π²Ρ‚ΠΎΡ€ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ дСньги Π·Π° это». Π—Π°Π΄Π°Ρ‡Π° ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ - ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ, насколько ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΠ²Π΅Ρ€ΡΡ‚ΡŒ ΡΠΎΠΎΠ±Ρ‰Π΅Π½ΠΈΡŽ ΠΈ Π·Π°ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Π΅ΡΡ‚ΡŒ Π»ΠΈ скрытый интСрСс. 🧩 Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ На простых синтСтичСских ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°Ρ… (Π³Π΄Π΅ ΠΌΠΎΡ‚ΠΈΠ² ΠΎΡ‡Π΅Π²ΠΈΠ΄Π΅Π½) LLM-Ρ‹ дСйствовали ΠΏΠΎΡ‡Ρ‚ΠΈ ΠΊΠ°ΠΊ люди ΠΈ ΠΌΠΎΠ³Π»ΠΈ логичСски ΠΎΠ±ΡŠΡΡΠ½ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ сообщСниС ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ прСдвзятым. Но Π² Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… кСйсах, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π² Ρ€Π΅ΠΊΠ»Π°ΠΌΠ½Ρ‹Ρ… тСкстах ΠΈΠ»ΠΈ постах с ΠΏΠ»Π°Ρ‚Π½ΠΎΠΉ ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΠ΅ΠΉ β€” ΠΌΠΎΠ΄Π΅Π»ΠΈ часто Π½Π΅ Π²ΠΈΠ΄Π΅Π»ΠΈ ΠΏΠΎΠ΄Π²ΠΎΡ…Π°. Они воспринимали сообщСния ΠΊΠ°ΠΊ искрСнниС ΠΈ достовСрныС. Если модСль Π½Π°ΠΏΠΎΠΌΠ½ΠΈΡ‚ΡŒ Π·Π°Ρ€Π°Π½Π΅Π΅ (prompt-hint), Ρ‡Ρ‚ΠΎ стоит ΠΈΡΠΊΠ°Ρ‚ΡŒ скрытыС ΠΌΠΎΡ‚ΠΈΠ²Ρ‹, Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π»ΠΈΡΡŒ, Π½ΠΎ Π½Π΅ сильно - эффСкт Π±Ρ‹Π» частичный. 🧠 НСоТиданный эффСкт Оказалось, Ρ‡Ρ‚ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈ с Π΄Π»ΠΈΠ½Π½Ρ‹ΠΌΠΈ Ρ†Π΅ΠΏΠΎΡ‡ΠΊΠ°ΠΌΠΈ рассуТдСний (chain-of-thought) Ρ…ΡƒΠΆΠ΅ Π·Π°ΠΌΠ΅Ρ‡Π°Π»ΠΈ манипуляции. Когда модСль Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎ Ρ€Π°ΡΡΡƒΠΆΠ΄Π°Ρ‚ΡŒ, ΠΎΠ½Π° Π»Π΅Π³Ρ‡Π΅ β€œΠ·Π°ΠΏΡƒΡ‚Ρ‹Π²Π°Π΅Ρ‚ΡΡβ€ Π² дСталях ΠΈ тСряСт ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΊ источнику, особСнно Ссли ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚ Π΄Π»ΠΈΠ½Π½Ρ‹ΠΉ ΠΈ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ. Π§Π΅ΠΌ Π΄Π»ΠΈΠ½Π½Π΅Π΅ ΠΈ слоТнСС сообщСниС, Ρ‚Π΅ΠΌ Ρ…ΡƒΠΆΠ΅ модСль ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π΅Ρ‚ ΠΏΡ€Π΅Π΄Π²Π·ΡΡ‚ΠΎΡΡ‚ΡŒ. Π­Ρ‚ΠΎ контрастируСт с чСловСчСским ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ΠΌ: люди ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ, Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚, становятся ΠΏΠΎΠ΄ΠΎΠ·Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½Π΅Π΅ ΠΏΡ€ΠΈ слоТных Ρ€Π΅ΠΊΠ»Π°ΠΌΠ½Ρ‹Ρ… тСкстах. Π‘ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ LLM ΠΌΠΎΠ³ΡƒΡ‚ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ„Π°ΠΊΡ‚Ρ‹, Π½ΠΎ слабо ΠΏΠΎΠ½ΠΈΠΌΠ°ΡŽΡ‚ ΠΌΠΎΡ‚ΠΈΠ²Ρ‹, Π½ΠΎ ΠΈΠΌ Ρ‚Ρ€ΡƒΠ΄Π½ΠΎ Ρ€Π°Π·Π»ΠΈΡ‡ΠΈΡ‚ΡŒ, ΠΏΠΎΡ‡Π΅ΠΌΡƒ ΠΊΡ‚ΠΎ-Ρ‚ΠΎ Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚. Π­Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ ΠΈΡ… уязвимыми для скрытого влияния, особСнно Ссли тСкст замаскирован ΠΏΠΎΠ΄ друТСский совСт ΠΈΠ»ΠΈ экспСртноС ΠΌΠ½Π΅Π½ΠΈΠ΅. ΠŸΡ€ΠΈ использовании LLM для Π°Π½Π°Π»ΠΈΠ·Π° новостСй, Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ ΠΈΠ»ΠΈ Ρ€Π΅ΠΊΠ»Π°ΠΌΡ‹ Π²Π°ΠΆΠ½ΠΎ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π½Π΅ Ρ€Π°ΡΠΏΠΎΠ·Π½Π°Ρ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Ρ€Ρ‡Π΅ΡΠΊΡƒΡŽ ΠΏΡ€Π΅Π΄Π²Π·ΡΡ‚ΠΎΡΡ‚ΡŒ. πŸ“„ ИсслСдованиС: arxiv.org/abs/2510.19687 @data_analysis_ml