#python#audio#deeplearning#minicpm#python#pytorch#speech#speech_synthesis#text_to_speech#tts#tts_model#voice_cloning
VoxCPM is a free, open-source TTS tool that turns text into realistic speech without tokens, creating expressive audio that matches context and clones voices perfectly from just 3-10 seconds of sample. Download VoxCPM1.5 (800M params) from Hugging Face, install via pip, and use simple Python or CLI commands for fast synthesis (RTF 0.15 on RTX 4090) or fine-tuning your own voices. You benefit by easily making natural audiobooks, podcasts, clones, or apps with pro-quality sound—saving time and costs on voice work.
https://github.com/OpenBMB/VoxCPM
🌍 Hunyuan3D World Model 1.0 — первая в индустрии open-source модель для генерации интерактивных 3D‑миров
Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению.
🧠 Что умеет:
— Генерация 3D-сред из текста или картинки
— Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal)
— Подходит для игр, VR, цифрового контента и прототипирования живых миров
Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением.
Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров.
📌 Полностью открытая модель:
🟢Проект: https://3d-models.hunyuan.tencent.com/world
🟢 Онлайн-демо: https://3d.hunyuan.tencent.com/sceneTo3D
🟢GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
🟢 Hugging Face: https://huggingface.co/tencent/HunyuanWorld-1
@ai_machinelearning_big_data
#3DGeneration#GenerativeAI#TextTo3D#Hunyuan3D#TencentAI#GameDev#VirtualReality
⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B
Tencent выложила в open-source новую модель HunyuanOCR.
Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan.
Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске.
⚡ Топ по бенчмаркам
• 860 на OCRBench среди всех моделей до 3B
• 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов
🌐 Что умеет HunyuanOCR
Модель закрывает практически все типы OCR задач
• текст на улицах, витринах, табличках
• рукописный текст и художественные шрифты
• сложные документы: таблицы, формулы, встроенный HTML и LaTeX
• субтитры в видео
• перевод текста на фото end-to-end сразу на 14 языков
Это не каскадный пайплайн, а единое решение
Один запрос и одно инференс-прогон дают готовый результат.
Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки.
📌 Project Page
web: https://hunyuan.tencent.com/vision/zh?tabIndex=0
mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
🔗GitHub
https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 Hugging Face
https://huggingface.co/tencent/HunyuanOCR
📄 Technical Report
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@ai_machinelearning_big_data
#HunyuanOCR#TencentAI#OCR#VisionAI#DeepLearning#Multimodal#AIModels#OpenSourceAI#ComputerVision#DocumentAI