#rust#ai_gateway#ai_gateway_support#envoy#envoyproxy#gateway#generative_ai#llm_gateway#llm_inference#llm_proxy#llm_routing#llmops#llms#openai#prompt#proxy#proxy_server#routing
Plano is an AI-native proxy server that handles key tasks for agentic apps like routing between agents, smart LLM model selection, safety guardrails, and automatic traces for observability. Define agents in simple YAML, write basic HTTP code in any language, and start Plano to run multi-agent systems without custom plumbing or framework lock-in. You benefit by building and shipping reliable agents to production much faster, focusing on core logic while gaining safety, low latency, and easy scaling.
https://github.com/katanemo/plano
💡 Исследователи из ByteDance и Stanford предложили новый метод для генерации длинных видео — Mixture of Contexts.
🔑 В чём проблема:
Когда видео становится длинным, внимание модели сильно «раздувается»: растёт стоимость вычислений, модель теряет детали на генерациях, забывает персонажей и «дрейфует».
⚡ Чем интересен Mixture of Contexts:
- Видео разбивается на куски (кадры, шоты, подписи).
- Каждый запрос выбирает только нужные чанки, вместо того чтобы учитывать всю историю.
- Для этого используется простая оценка релевантности: сравнение признаков чанков с текущим запросом.
- Обязательно учитываются два «якоря»: полный текстовый промпт и локальный шот для деталей видео.
- Causal mask блокирует внимание к будущим кадрам, чтобы не было зацикливаний.
- Дальше применяется Flash Attention только к выбранным чанкам — вычисления растут не с длиной всего видео, а только с полезным контекстом.
📊 Результаты:
- В 7 раз меньше FLOPs
- В 2.2 раза быстрее работа
- На длинных сценах (180k токенов) отсекается 85% ненужного внимания
🎥 Итог:
- Короткие клипы сохраняют качество
- Длинные сцены становятся более плавными, а персонажи — стабильными
- Время генерации заметно сокращается
Главное: модель учится сама понимать, на что смотреть, получая «память» на минуты видео без изменения базовой архитектуры.
🟠Подробнее
@ai_machinelearning_big_data
#AI#ML#ByteDance#Stanford#videogeneration
🎥 Новинка от ByteDance: модель Video-As-Prompt Wan2.1-14B
ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео.
- Работает в режимах «видео → видео» или «изображения/текст → видео».
- 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения.
- Использует исходное видео как шаблон стиля и композиции.
⚠️ Что стоит учитывать
- Модель требует мощных GPU и большого объёма памяти.
- Качество результата зависит от сложности запроса и длины видео.
🟠Github: https://github.com/bytedance/Video-As-Prompt
🟠HF: https://huggingface.co/ByteDance/Video-As-Prompt-Wan2.1-14B
@ai_machinelearning_big_data
#AI#VideoGeneration#ByteDance#Wan2#HuggingFace
✨HuMo : еще один релиз от ByteDance
Модель, ориентированная на создание видео, где главным элементом является человек, с контролем через разные модальности: текст, изображения, аудио.
> на входи модель может принимать: текст + изображение, текст + аудио, текст + аудио
> поддержка сохранения образа персонажа и синхронизации движений с аудио
> модель основана на **Wan 2.1** и Whisper Large v3
https://huggingface.co/bytedance-research/HuMo
@ai_machinelearning_big_data
#AI#ByteDance#HuMo#VideoGeneration#Multimoda
⚡️LongCat-Video 13.6И - мощная open-source модель для генерации видео.
Модель поддерживает:
- Текст в видео (Text-to-Video)
- Оживлять картинку (Image-to-Video)
- Продолжать существующее видео (Video Continuation)
Всё в одном фреймворке, без переключения между разными моделями.
🎬Главное преимущество модели - способность генерировать длинные видео (минуты) без потери качества и цветового дрейфа, что до сих пор остаётся слабым местом большинства аналогов.
Еще из интересного, модель позволяет создавать видео в разрешении 720p при 30 кадрах/с.
🏆 LongCat-Video конкурирует с лучшими open-source решениями и даже некоторыми коммерческими моделями, особенно в согласованности текста и изображения.
Самое приятное - полный open-source под лицензией MIT, можно использовать как в исследованиях, так и в коммерческих проектах.
▪GitHub: https://github.com/meituan-longcat/LongCat-Video
▪Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video
▪Сайт проекта: https://meituan-longcat.github.io/LongCat-Video/
@ai_machinelearning_big_data
#LongCatVideo#TextToVideo#ImageToVideo#VideoContinuation#OpenSource#AI#GenerativeAI#VideoGeneration