Содержимое
Как сэкономить до 4 раз на длинных промптах в OpenAI API Если вы (ваш стартап/продукт/сервис) часто отправляете в OpenAI один и тот же системный промпт — вы можете значительно сэкономить за счёт кеширования Prompt Caching (мне кажется мало кто об этом знает и использует эту экономию по максимуму). Что это такое OpenAI автоматически кеширует начало промпта (префикс), если оно уже обрабатывалось недавно. Это позволяет не пересчитывать его заново при каждом запросе. Результат: – задержка может снизиться до -80%, – стоимость токенов для префикса — до -50%. Когда работает кеш – Срабатывает, если промпт длиннее 1024 токенов – Проверяется, не был ли этот префикс использован недавно – Время жизни кеша — 5–10 минут, иногда до часа (если не было запросов, кеш очищается). Подходит для случаев, когда много запросов отправляются с одинаковым началом. Что считается совпадением Промпт должен совпадать с точностью до символа: пробелы, порядок строк и даже кавычки имеют значение. Кеш работает блоками: 1024, 1152, 1280 токенов и далее с шагом 128 токенов (в зависимости от длины вашего входного промпта). Что кешируется – System-промпт – Инструкции, примеры, структура вывода – Список инструментов – Изображения (когда они передаются как base64 и если одинаковые каждый раз) Важно: Все эти элементы должны быть в начале промпта. Как понять, что кеш сработал Смотрите поле cached_tokens в ответе API. Если значение больше нуля — часть промпта взята из кеша. Нужно ли что-то включать Нет. Кеш работает автоматически, без настроек и доплат. Он встроен во все модели начиная с gpt-4o. Рекомендации – Фиксируйте начало промпта (префикс должен оставаться статичным) – Избегайте мелких правок и случайных изменений – Динамический контент — в конец Если вы работаете с длинными и повторяющимися промптами — кеш поможет значительно сократить расходы и ускорить работу. Подробнее о кешировании в OpenAI API читать тут. ИИволюция