Содержимое
MWS Cloud презентовала платформу для инференса AI-моделей, которая позволяет более чем на 15% оптимизировать затраты на GPU. Платформа может выводить в продакшн любые обученные ML-модели, большие языковые модели и модели компьютерного зрения. Поверх стандартного Kubernetes, платформа имеет простой и мощный API, который упрощает работу инженеров. Также в ней доработана оркестрация, что позволяет оптимизировать затраты на GPU. Платформа позволяет: - В десятки раз быстрее интегрировать LLM и CV-модели с ИТ-системами компаний; - Снизить операционную нагрузку на ML-команды при эксплуатации моделей на 70%; - Повысить автоматизацию CI/CD более чем на треть; - Уменьшить затраты на GPU более чем на 15%; Inference Valve интегрируется с ML-платформой и инструментами непрерывной разработки (CI/CD), а получить к ней доступ можно как из частного облака на инфраструктуре MWS Cloud, так и on-prem на серверах заказчика, а также в составе программно-аппаратных комплексов (ПАК) в закрытом контуре, включая режимы с ограниченным доступом к внешним сетям. Inference Valve также предоставляет метрики задержек и пропускной способности, мониторинг доступности, алёрты и дашборды; доступна телеметрия качества, включая отслеживание дрейфа данных и моделей, контроль целевых метрик и уведомления при деградации. Интеграция с системами наблюдаемости (Prometheus/Grafana) и журналированием запросов упрощает аудит и разбор инцидентов. Попробовать Inference Valve можно по ссылке. @ai_machinelearning_big_data