Содержимое
⚡ Heretic - инструмент, который автоматически снимает цензуру (alignment) с языковых моделей Он позволяет «расцепить» модель - убрать отказные фильтры и повысить готовность отвечать на запросы, не изменяя веса исходной модели напрямую. Что делает Heretic: - работает как «чёрный ящик»: получает ответы модели через API, не имея доступа к весам - использует готовые примеры «безопасных» и «опасных» запросов - обучает дискриминатор, который отличает ответы модели до и после модификации - подбирает параметры так, чтобы модель давала меньше отказов, но сохраняла адекватность - после завершения процесс можно сохранить финальную модель или протестировать её в чат-режиме Зачем это нужно: - позволяет локальным моделям отвечать шире, чем обычно позволяет их встроенный alignment - минимизирует потерю качества — сделано так, чтобы модель не «тупела» и не отклонялась слишком сильно - подходит для исследований поведения моделей и экспериментов с ограничениями Важные моменты: - инструмент мощный и может использоваться по-разному - юридические и этические вопросы остаются на стороне пользователя - автор подчёркивает: это не средство повышения точности модели, а именно инструмент снятия ограничений https://github.com/p-e-w/heretic @ai_machinelearning_big_data #llm#opensource#ml