Post #1306

@aicentremgimo

AI Global Agenda

Просмотры501Количество просмотров

Опубликован22 нояб.22.11.2024, 07:45

Содержимое поста

Содержимое

📩 Французский стартап Kili Technology выпустил отчет по безопасности последнего поколения больших языковых моделей: CommandR+, Llama 3.2 и GPT4o. Целью исследования стало определение эффективности известных подходов к взлому LLM. * Работа KT показала, что эти модели подвержены дезинформационным атакам на основе шаблонов, в частности с помощью техники «Атака несколькими/многими выстрелами» (Few/Many Shot Attack), которая заставляет модели выдавать вредные результаты с высокой долей успеха - до 92,86 %. * Примечательно различие в уязвимости для разных языков: английские промты были более успешными в манипулировании моделями по сравнению с французскими. * Этические барьеры в моделях ИИ могут ослабевать при длительном взаимодействии, что приводит к выполнению опасных запросов. 📌Комментарий экспертов Центра ИИ МГИМО: Методология исследования отличается разносторонним подходом в рамках поставленной задачи. Подобный бенчмарк имело бы смысл использовать в качестве регуляторного или рекомендательного теста для этичности LLM, с обязательной поправкой на различные языковые, культурные и геополитические контексты.