Find similar content

Source channel @githubtrending · Post #15421 · Jan 18

#python#audio#deeplearning#minicpm#python#pytorch#speech#speech_synthesis#text_to_speech#tts#tts_model#voice_cloning VoxCPM is a free, open-source TTS tool that turns text into realistic speech without tokens, creating expressive audio that matches context and clones voices perfectly from just 3-10 seconds of sample. Download VoxCPM1.5 (800M params) from Hugging Face, install via pip, and use simple Python or CLI commands for fast synthesis (RTF 0.15 on RTX 4090) or fine-tuning your own voices. You benefit by easily making natural audiobooks, podcasts, clones, or apps with pro-quality sound—saving time and costs on voice work. https://github.com/OpenBMB/VoxCPM

Hashtags

#python #audio #deeplearning #minicpm #pytorch #speech #speech_synthesis #text_to_speech #tts #tts_model #voice_cloning

Results

7 similar posts found

Search: #opensourceai

当前筛选 #opensourceai清除筛选

Семён: Нейросети в каждый дом

@semasci · Post #1516 · 04/03/2026, 05:28 AM

Find similar View

🔥Google выпустила Gemma 4 — самую умную открытую модель на сегодня Если вы следите за open-source LLM, это важный релиз. Gemma 4 построена на тех же исследованиях, что и Gemini 3, но работает локально — на вашем железе. Почему стоит обратить внимание: 🧠Прорывной интеллект — для сложных рассуждений и агентных workflows 🌐Мультимодальность и 140+ языков «из коробки» 📄Огромный контекст — до 256K токенов 🛠Нативные функции для вызовов инструментов и автономных агентов 💻 Качественная генерация кода (офлайн) ⚖️Apache 2.0 — можно использовать в коммерческих проектах без ограничений Доступны 4 размера модели в Google AI Studio. Для локального использования скачайте веса на Hugging Face, Kaggle и Ollama. 👉Больше деталей #Gemma4#OpenSourceAI#LLM https://t.me/semasci

Hashtags

#gemma4 #opensourceai #llm

Machinelearning

@ai_machinelearning_big_data · Post #8630 · 09/26/2025, 12:45 PM

Find similar View

✔️ Tencent представила Hunyuan3D-Omni: первую в индустрии модель для генерации 3D-объектов с мультиконтрольным управлением. Модель ростроенная на базе open-source Hunyuan3D 2.1 и называемая «ControlNet для 3D», система решает проблемы кривых генераций и искажённой геометрии, интегрируя до четырёх условий контроля. Две ключевые инновации: - Лёгкий унифицированный энкодер управления для эффективного мультимодального фьюжна - Стратегия прогрессивного обучения по сложности, повышающая устойчивость модели Возможности: - Управление по одному изображению и наброску позволяет точно задавать позы для анимаций и аватаров - Использование облака точек (полного или построенного по глубине): убирает визуальную неопределённость и обеспечивает реалистичную геометрию - Контроль через bounding box: задаёт пропорции объекта (длину, ширину и высоту) в соответствии с дизайном - Voxel-контроль: формирует топологию объекта, что удобно и для инженерных, и для творческих сценариев Tencent дропнули код и веса. 🟢Код: https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni 🟢Веса: https://huggingface.co/tencent/Hunyuan3D-Omni 🟢Отчёт: https://arxiv.org/pdf/2509.21245 @ai_machinelearning_big_data #3DGenAI#TencentHunyuan#OpenSourceAI

Hashtags

#3dgenai #tencenthunyuan #opensourceai

Machinelearning

@ai_machinelearning_big_data · Post #8615 · 09/23/2025, 05:34 PM

Find similar View

⚡️Новая модель LFM2-2.6B - лидер в классе до 3B параметров. Ключевые особенности: - лёгкая и быстрая, всего 2.6B параметров - построена на архитектуре v2 (short convs + group query attention) - обучена на 10 трлн токенов, поддерживает контекст до 32k LFM2-2.6B - компактная, но мощная моделька для широкого спектра задач. 🟠Blog post: https://liquid.ai/blog/introducing-lfm2-2-6b-redefining-efficiency-in-language-models 🟠HF: https://huggingface.co/LiquidAI/LFM2-2.6B 🟠Model Bundle on LEAP: https://leap.liquid.ai/models?model=lfm2-2.6b @ai_machinelearning_big_data #AI#LLM#LFM2#OpenSourceAI#Multilingual

Hashtags

#ai #llm #lfm2 #opensourceai #multilingual

Machinelearning

@ai_machinelearning_big_data · Post #8924 · 11/02/2025, 09:32 AM

Find similar View

⚡️LongCat-Flash-Omni - открытая 560B MoE-модель (27B активных параметров), которая умеет вести живой диалог в реальном времени, слышать, видеть и отвечать голосом. Ключевые фишки: -модель разговаривает и видит собеседника, реагирует на беседу в реальном времени - 128K контекст - продвинутая MoE-архитектура: высокое качество при меньших затратах (27B активных параметров из 560B) - Полгный open-source По тестам: - лидер на OmniBench, DailyOmni - хорошие показатели на ASR (распознавании речи), DocVQA, RefCOCO - обходит лучше Qwen3-Omni Instruct - и очень близка к Gemini-2.5-Flash, но это все таки*открытая* модель Открытая мультимодальная модель, которую можно запускать локально, хороший вариант для голосовых ассистентов. 🤖Model: https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Omni 🌐Demo: https://longcat.ai 📄 Full technical report & code: https://github.com/meituan-longcat/LongCat-Flash-Omni @ai_machinelearning_big_data #AI#OpenSourceAI#Multimodal#MoE#LLM#GenAI

Hashtags

#ai #opensourceai #multimodal #moe #llm #genai

Machinelearning

@ai_machinelearning_big_data · Post #8789 · 10/16/2025, 10:05 AM

Find similar View

🔥 Nanochat D32 : микромодель Карпаты за $1000, которая реально работает Карпаты написал, что завершил обучение Nanochat D32, обученной за 33 часа при бюджете $1000 (вместо $100). Результаты - удивительно хорошие для такой «крошки»: - 📈CORE score: 0.31 (выше, чем у GPT-2 — ~0.26) - 🧮GSM8K: с 8% до 20% - 🚀 Рост виден на всех этапах - pretraining, SFT и RL Карпати пишет: > «Не ждите от микромоделей чудес. Они обходятся $100–$1000, а не миллиарды долларов, как у крупных лабораторий. > Разговаривать с моделью - как с ребёнком из детсада: они милые, ошибаются, путаются, галлюцинируют, но это весело.» 💡Факты: - Nanochat тренируется с нуля - Самая маленькая модель Nanochat содержит примерно в тысячу раз меньше параметров, чем GPT-3. - Обнолвенный скрипт run1000.sh уже доступен в репозитории 📎 Подробности и отчёт: https://github.com/karpathy/nanochat/discussions/8 Карпати уже тестирует веб-чат с моделью (ссылку не публикует, чтобы не обвалили сервер). Дальше -оптимизация и возможно, переход к следующему уровню масштабирования. #AI#LLM#Nanochat#Karpathy#AIresearch#OpenSourceAI

Hashtags

#ai #llm #nanochat #karpathy #airesearch #opensourceai

Crypto M - Crypto News

@CryptoM · Post #64989 · 04/10/2026, 01:04 PM

Find similar View

🚀 AI TRENDS | Secure Blockchain Acquires Agentic Solutions in Stock Deal Secure Blockchain, a publicly traded Canadian company, has announced the acquisition of Agentic Solutions Limited, an AI Agent company based on ElizaOS, in an all-stock transaction valued at approximately $450,000, equivalent to 5 million common shares. According to Foresight News, the company also completed a private placement financing of $1.5 million, with the Eliza Foundation subscribing to about 50% of the shares, amounting to roughly $750,000. The funds raised will be allocated to AI Agent development, platform construction, and operational expenses. Additionally, Secure Blockchain settled $500,000 of debt through the issuance of approximately 4.44 million shares. Following the transaction, the total share capital stands at about 32.59 million shares, with a market value estimated at $3.67 million based on the financing price. The related shares are locked until August 11, 2026. Agentic Solutions is a commercial partner of ElizaOS, focusing on developing enterprise-level AI Agent products within this framework. ElizaOS, created by Eliza Labs, is one of the most active open-source AI Agent frameworks currently available. Secure Blockchain, previously specializing in blockchain embedded email encryption services, is transitioning into the Agentic AI sector following this acquisition. #AI#Blockchain#Acquisition#Financing#ElizaOS#AgenticSolutions#StockDeal#EnterpriseAI#OpenSourceAI#TechInvestment

Hashtags

#ai #blockchain #acquisition #financing #elizaos #agenticsolutions #stockdeal #enterpriseai #opensourceai #techinvestment

Machinelearning

@ai_machinelearning_big_data · Post #9070 · 11/25/2025, 12:11 PM

Find similar View

⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B Tencent выложила в open-source новую модель HunyuanOCR. Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan. Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске. ⚡ Топ по бенчмаркам • 860 на OCRBench среди всех моделей до 3B • 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов 🌐 Что умеет HunyuanOCR Модель закрывает практически все типы OCR задач • текст на улицах, витринах, табличках • рукописный текст и художественные шрифты • сложные документы: таблицы, формулы, встроенный HTML и LaTeX • субтитры в видео • перевод текста на фото end-to-end сразу на 14 языков Это не каскадный пайплайн, а единое решение Один запрос и одно инференс-прогон дают готовый результат. Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки. 📌 Project Page web: https://hunyuan.tencent.com/vision/zh?tabIndex=0 mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0 🔗GitHub https://github.com/Tencent-Hunyuan/HunyuanOCR 🤗 Hugging Face https://huggingface.co/tencent/HunyuanOCR 📄 Technical Report https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf @ai_machinelearning_big_data #HunyuanOCR#TencentAI#OCR#VisionAI#DeepLearning#Multimodal#AIModels#OpenSourceAI#ComputerVision#DocumentAI

Hashtags

#hunyuanocr #tencentai #ocr #visionai #deeplearning #multimodal #aimodels #opensourceai #computervision #documentai