Содержимое
✔️Tencent представила HunyuanVision - новую мультимодальную модель, объединяющую зрение и язык в одном фреймворке. Модель умеет рассуждать на основе изображений, понимать сложные визуально-текстовые задачи и поддерживает мультиязычные кейсы. Ключевые особенности: - Visual Reasoning - глубокое понимание изображений и сцен - Multilingual Support - работа с несколькими языками - Visual Dialogue - позволяет весть диалог на основе изображения и текста - Thinking-on-Image - рассуждение на уровне визуальных деталей HunyuanVision-1.5 демонстрирует продвинутые способности в задачах анализа, генерации и рассуждения. Работает шустро, русский понимает, но не без косяков. Модель доступна для использования через Tencent Cloud API и LMArena (Direct Chat). Полный технический отчёт и веса обещают к релизу позже в октябре. Ждемс. 🟠Попробовать: http://cloud.tencent.com/document/product/1729/104753 🟠Репозиторий: github.com/Tencent-Hunyuan/HunyuanVision 🟠Api: https://cloud.tencent.com/document/product/1729/104753 @ai_machinelearning_big_data #Tencent#llm#ml#Hunyuan#vlm