TGTGInsightаналитика telegramLIVE / telegram public index
← AI Global Agenda
AI Global Agenda avatar

TGINSIGHT POST

Post #1306

@aicentremgimo

AI Global Agenda

Просмотры501Количество просмотров
Опубликован22 нояб.22.11.2024, 07:45
Содержимое поста

Содержимое

📩 Французский стартап Kili Technology выпустил отчет по безопасности последнего поколения больших языковых моделей: CommandR+, Llama 3.2 и GPT4o. Целью исследования стало определение эффективности известных подходов к взлому LLM. * Работа KT показала, что эти модели подвержены дезинформационным атакам на основе шаблонов, в частности с помощью техники «Атака несколькими/многими выстрелами» (Few/Many Shot Attack), которая заставляет модели выдавать вредные результаты с высокой долей успеха - до 92,86 %. * Примечательно различие в уязвимости для разных языков: английские промты были более успешными в манипулировании моделями по сравнению с французскими. * Этические барьеры в моделях ИИ могут ослабевать при длительном взаимодействии, что приводит к выполнению опасных запросов. 📌Комментарий экспертов Центра ИИ МГИМО: Методология исследования отличается разносторонним подходом в рамках поставленной задачи. Подобный бенчмарк имело бы смысл использовать в качестве регуляторного или рекомендательного теста для этичности LLM, с обязательной поправкой на различные языковые, культурные и геополитические контексты.