Post #15

@AIexTime

AI[ex]Time

Views555Post view count

PostedSep 1009/10/2023, 12:23 PM

Post content

Хочется рассказать про один способ использования трансформеров в проде, который, как мне показалось, не все знают. Недавно обсуждали со знакомым, как ребята в поиске/ранжировании пытались докатить онлайн трансформер до прода и застряли там на довольно длительное время: начали с ONNX на цпу, поняли, что слишком медленно, затем подняли отдельный инстанс с гпу (со всеми организационными моментами), попробовали triton inference server и прочие методы. Где-то выходило дорого, где-то муторно, а релизить уже нужно было скоро. Что же в итоге заработало? 1. Посмотрели по трафику на топ Х запросов за последнее время и для них в оффлайне рассчитали выдачу тяжелым трансформером, который показывал лучшие метрики. 2. В сервис затащили маппинг из запроса в уже готовую выдачу. Маппинг при этом можно регулярно обновлять. 3. Для входящего запроса проверяем его наличие в маппинге. Если нет, то делаем fallback на модель попроще или какую-то эвристику. В итоге команда запустила A/B тест и быстро получила хорошие лифты. Fallback при этом происходил довольно редко. Сам же инференс (если его можно так назвать) работает супер быстро и требует только небольшого количества памяти для хранения отображения запрос-выдача.