Find similar content

Source channel @githubtrending · Post #15421 · Jan 18

#python#audio#deeplearning#minicpm#python#pytorch#speech#speech_synthesis#text_to_speech#tts#tts_model#voice_cloning VoxCPM is a free, open-source TTS tool that turns text into realistic speech without tokens, creating expressive audio that matches context and clones voices perfectly from just 3-10 seconds of sample. Download VoxCPM1.5 (800M params) from Hugging Face, install via pip, and use simple Python or CLI commands for fast synthesis (RTF 0.15 on RTX 4090) or fine-tuning your own voices. You benefit by easily making natural audiobooks, podcasts, clones, or apps with pro-quality sound—saving time and costs on voice work. https://github.com/OpenBMB/VoxCPM

Hashtags

#python #audio #deeplearning #minicpm #pytorch #speech #speech_synthesis #text_to_speech #tts #tts_model #voice_cloning

Results

2 similar posts found

Search: #tencentai

当前筛选 #tencentai清除筛选

Machinelearning

@ai_machinelearning_big_data · Post #8145 · 07/27/2025, 10:50 AM

Find similar View

🌍 Hunyuan3D World Model 1.0 — первая в индустрии open-source модель для генерации интерактивных 3D‑миров Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению. 🧠 Что умеет: — Генерация 3D-сред из текста или картинки — Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal) — Подходит для игр, VR, цифрового контента и прототипирования живых миров Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением. Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров. 📌 Полностью открытая модель: 🟢Проект: https://3d-models.hunyuan.tencent.com/world 🟢 Онлайн-демо: https://3d.hunyuan.tencent.com/sceneTo3D 🟢GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0 🟢 Hugging Face: https://huggingface.co/tencent/HunyuanWorld-1 @ai_machinelearning_big_data #3DGeneration#GenerativeAI#TextTo3D#Hunyuan3D#TencentAI#GameDev#VirtualReality

Hashtags

#3dgeneration #generativeai #textto3d #hunyuan3d #tencentai #gamedev #virtualreality

Machinelearning

@ai_machinelearning_big_data · Post #9070 · 11/25/2025, 12:11 PM

Find similar View

⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B Tencent выложила в open-source новую модель HunyuanOCR. Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan. Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске. ⚡ Топ по бенчмаркам • 860 на OCRBench среди всех моделей до 3B • 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов 🌐 Что умеет HunyuanOCR Модель закрывает практически все типы OCR задач • текст на улицах, витринах, табличках • рукописный текст и художественные шрифты • сложные документы: таблицы, формулы, встроенный HTML и LaTeX • субтитры в видео • перевод текста на фото end-to-end сразу на 14 языков Это не каскадный пайплайн, а единое решение Один запрос и одно инференс-прогон дают готовый результат. Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки. 📌 Project Page web: https://hunyuan.tencent.com/vision/zh?tabIndex=0 mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0 🔗GitHub https://github.com/Tencent-Hunyuan/HunyuanOCR 🤗 Hugging Face https://huggingface.co/tencent/HunyuanOCR 📄 Technical Report https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf @ai_machinelearning_big_data #HunyuanOCR#TencentAI#OCR#VisionAI#DeepLearning#Multimodal#AIModels#OpenSourceAI#ComputerVision#DocumentAI

Hashtags

#hunyuanocr #tencentai #ocr #visionai #deeplearning #multimodal #aimodels #opensourceai #computervision #documentai