В прошлом посте говоря "Все вызовы теперь одинаковы" я несколько слукавил. Всё-таки есть в этом зоопарке версий некоторая несовместимость вызов которой просто так не унифицировать. Эти моменты вынесены в отдельный модуль QtCompat (compatibility). Там не так много функций но они довольно полезны.
Этот модуль содержит унификаци модуля shiboken2, функций loadUi, translate и несколько переименованных функций классов или изменённую сигнатуру аргументов и возвращаемых значений. Это единственное исключение из правила когда вам потребуется где-то изменить свой код кроме импортов и этот код не похож на обычный код PySide2.
Например, в PyQt4 и PySide есть метод
QHeaderView.setResizeMode
Для PyQt5 и PySide2 они были благополучно переименованы в
QHeaderView.setSectionResizeMode
Чтобы применить этот метод следует использовать такой код
from Qt import QtCompath
header = self.horizontalHeader()
QtCompat.QHeaderView.setSectionResizeMode(header, QtWidgets.QHeaderView.Fixed)
Унификация загрузки UI файлов:
# PySide2
from PySide2.QtUiTools import QUiLoader
loader = QUiLoader()
widget = loader.load(ui_file)
# PyQt5
from PyQt5 import uic
widget = uic.loadUi(ui_file)
# Qt.py
from Qt import QtCompat
widget = QtCompat.loadUi(ui_file)
Хорошо что таких моментов не много и их легко запомнить.
Полный список можно посмотреть в таблице.
#qt#tricks
💡 Исследователи из ByteDance и Stanford предложили новый метод для генерации длинных видео — Mixture of Contexts.
🔑 В чём проблема:
Когда видео становится длинным, внимание модели сильно «раздувается»: растёт стоимость вычислений, модель теряет детали на генерациях, забывает персонажей и «дрейфует».
⚡ Чем интересен Mixture of Contexts:
- Видео разбивается на куски (кадры, шоты, подписи).
- Каждый запрос выбирает только нужные чанки, вместо того чтобы учитывать всю историю.
- Для этого используется простая оценка релевантности: сравнение признаков чанков с текущим запросом.
- Обязательно учитываются два «якоря»: полный текстовый промпт и локальный шот для деталей видео.
- Causal mask блокирует внимание к будущим кадрам, чтобы не было зацикливаний.
- Дальше применяется Flash Attention только к выбранным чанкам — вычисления растут не с длиной всего видео, а только с полезным контекстом.
📊 Результаты:
- В 7 раз меньше FLOPs
- В 2.2 раза быстрее работа
- На длинных сценах (180k токенов) отсекается 85% ненужного внимания
🎥 Итог:
- Короткие клипы сохраняют качество
- Длинные сцены становятся более плавными, а персонажи — стабильными
- Время генерации заметно сокращается
Главное: модель учится сама понимать, на что смотреть, получая «память» на минуты видео без изменения базовой архитектуры.
🟠Подробнее
@ai_machinelearning_big_data
#AI#ML#ByteDance#Stanford#videogeneration
🎥 Новинка от ByteDance: модель Video-As-Prompt Wan2.1-14B
ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео.
- Работает в режимах «видео → видео» или «изображения/текст → видео».
- 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения.
- Использует исходное видео как шаблон стиля и композиции.
⚠️ Что стоит учитывать
- Модель требует мощных GPU и большого объёма памяти.
- Качество результата зависит от сложности запроса и длины видео.
🟠Github: https://github.com/bytedance/Video-As-Prompt
🟠HF: https://huggingface.co/ByteDance/Video-As-Prompt-Wan2.1-14B
@ai_machinelearning_big_data
#AI#VideoGeneration#ByteDance#Wan2#HuggingFace
✨HuMo : еще один релиз от ByteDance
Модель, ориентированная на создание видео, где главным элементом является человек, с контролем через разные модальности: текст, изображения, аудио.
> на входи модель может принимать: текст + изображение, текст + аудио, текст + аудио
> поддержка сохранения образа персонажа и синхронизации движений с аудио
> модель основана на **Wan 2.1** и Whisper Large v3
https://huggingface.co/bytedance-research/HuMo
@ai_machinelearning_big_data
#AI#ByteDance#HuMo#VideoGeneration#Multimoda
⚡️LongCat-Video 13.6И - мощная open-source модель для генерации видео.
Модель поддерживает:
- Текст в видео (Text-to-Video)
- Оживлять картинку (Image-to-Video)
- Продолжать существующее видео (Video Continuation)
Всё в одном фреймворке, без переключения между разными моделями.
🎬Главное преимущество модели - способность генерировать длинные видео (минуты) без потери качества и цветового дрейфа, что до сих пор остаётся слабым местом большинства аналогов.
Еще из интересного, модель позволяет создавать видео в разрешении 720p при 30 кадрах/с.
🏆 LongCat-Video конкурирует с лучшими open-source решениями и даже некоторыми коммерческими моделями, особенно в согласованности текста и изображения.
Самое приятное - полный open-source под лицензией MIT, можно использовать как в исследованиях, так и в коммерческих проектах.
▪GitHub: https://github.com/meituan-longcat/LongCat-Video
▪Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video
▪Сайт проекта: https://meituan-longcat.github.io/LongCat-Video/
@ai_machinelearning_big_data
#LongCatVideo#TextToVideo#ImageToVideo#VideoContinuation#OpenSource#AI#GenerativeAI#VideoGeneration