Содержимое
Очень маловероятно, что CLI вызывает замедление, он просто отправляет ваш запрос на сервер. Реальная проблема заключается в том, как маршрутизировать запросы, как только они подают на серверы. Подумайте об этом так: У вас есть куча серверов за балансировщиками нагрузки. Некоторые серверы работают с высокопроизводительной моделью (Codex-high), другие работают с более низкой версией (Codex-low). • Каждый сервер может обрабатывать только ограниченное количество запросов одновременно. Теперь представьте, что пользователей используют Codex-high больше, чем эти серверы могут справиться. Когда это произойдет, балансировщик нагрузки может начать отправлять переполнение запросов на серверы с низким индексом, потому что он видит только «доступную емкость», а не «качество модели». Вот почему производительность иногда кажется «нерхимой», ваш запрос может оказаться на более медленном или дешевом бэкэнде.