#python#audio#deeplearning#minicpm#python#pytorch#speech#speech_synthesis#text_to_speech#tts#tts_model#voice_cloning
VoxCPM is a free, open-source TTS tool that turns text into realistic speech without tokens, creating expressive audio that matches context and clones voices perfectly from just 3-10 seconds of sample. Download VoxCPM1.5 (800M params) from Hugging Face, install via pip, and use simple Python or CLI commands for fast synthesis (RTF 0.15 on RTX 4090) or fine-tuning your own voices. You benefit by easily making natural audiobooks, podcasts, clones, or apps with pro-quality sound—saving time and costs on voice work.
https://github.com/OpenBMB/VoxCPM
🔥Google выпустила Gemma 4 — самую умную открытую модель на сегодня
Если вы следите за open-source LLM, это важный релиз. Gemma 4 построена на тех же исследованиях, что и Gemini 3, но работает локально — на вашем железе.
Почему стоит обратить внимание:
🧠Прорывной интеллект — для сложных рассуждений и агентных workflows
🌐Мультимодальность и 140+ языков «из коробки»
📄Огромный контекст — до 256K токенов
🛠Нативные функции для вызовов инструментов и автономных агентов
💻 Качественная генерация кода (офлайн)
⚖️Apache 2.0 — можно использовать в коммерческих проектах без ограничений
Доступны 4 размера модели в Google AI Studio. Для локального использования скачайте веса на Hugging Face, Kaggle и Ollama.
👉Больше деталей
#Gemma4#OpenSourceAI#LLM
https://t.me/semasci
✔️ Tencent представила Hunyuan3D-Omni: первую в индустрии модель для генерации 3D-объектов с мультиконтрольным управлением.
Модель ростроенная на базе open-source Hunyuan3D 2.1 и называемая «ControlNet для 3D», система решает проблемы кривых генераций и искажённой геометрии, интегрируя до четырёх условий контроля.
Две ключевые инновации:
- Лёгкий унифицированный энкодер управления для эффективного мультимодального фьюжна
- Стратегия прогрессивного обучения по сложности, повышающая устойчивость модели
Возможности:
- Управление по одному изображению и наброску позволяет точно задавать позы для анимаций и аватаров
- Использование облака точек (полного или построенного по глубине): убирает визуальную неопределённость и обеспечивает реалистичную геометрию
- Контроль через bounding box: задаёт пропорции объекта (длину, ширину и высоту) в соответствии с дизайном
- Voxel-контроль: формирует топологию объекта, что удобно и для инженерных, и для творческих сценариев
Tencent дропнули код и веса.
🟢Код: https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
🟢Веса: https://huggingface.co/tencent/Hunyuan3D-Omni
🟢Отчёт: https://arxiv.org/pdf/2509.21245
@ai_machinelearning_big_data
#3DGenAI#TencentHunyuan#OpenSourceAI
⚡️Новая модель LFM2-2.6B - лидер в классе до 3B параметров.
Ключевые особенности:
- лёгкая и быстрая, всего 2.6B параметров
- построена на архитектуре v2 (short convs + group query attention)
- обучена на 10 трлн токенов, поддерживает контекст до 32k
LFM2-2.6B - компактная, но мощная моделька для широкого спектра задач.
🟠Blog post: https://liquid.ai/blog/introducing-lfm2-2-6b-redefining-efficiency-in-language-models
🟠HF: https://huggingface.co/LiquidAI/LFM2-2.6B
🟠Model Bundle on LEAP: https://leap.liquid.ai/models?model=lfm2-2.6b
@ai_machinelearning_big_data
#AI#LLM#LFM2#OpenSourceAI#Multilingual
⚡️LongCat-Flash-Omni - открытая 560B MoE-модель (27B активных параметров), которая умеет вести живой диалог в реальном времени, слышать, видеть и отвечать голосом.
Ключевые фишки:
-модель разговаривает и видит собеседника, реагирует на беседу в реальном времени
- 128K контекст
- продвинутая MoE-архитектура: высокое качество при меньших затратах (27B активных параметров из 560B)
- Полгный open-source
По тестам:
- лидер на OmniBench, DailyOmni
- хорошие показатели на ASR (распознавании речи), DocVQA, RefCOCO
- обходит лучше Qwen3-Omni Instruct
- и очень близка к Gemini-2.5-Flash, но это все таки*открытая* модель
Открытая мультимодальная модель, которую можно запускать локально, хороший вариант для голосовых ассистентов.
🤖Model: https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Omni
🌐Demo: https://longcat.ai
📄 Full technical report & code:
https://github.com/meituan-longcat/LongCat-Flash-Omni
@ai_machinelearning_big_data
#AI#OpenSourceAI#Multimodal#MoE#LLM#GenAI
🔥 Nanochat D32 : микромодель Карпаты за $1000, которая реально работает
Карпаты написал, что завершил обучение Nanochat D32, обученной за 33 часа при бюджете $1000 (вместо $100).
Результаты - удивительно хорошие для такой «крошки»:
- 📈CORE score: 0.31 (выше, чем у GPT-2 — ~0.26)
- 🧮GSM8K: с 8% до 20%
- 🚀 Рост виден на всех этапах - pretraining, SFT и RL
Карпати пишет:
> «Не ждите от микромоделей чудес. Они обходятся $100–$1000, а не миллиарды долларов, как у крупных лабораторий.
> Разговаривать с моделью - как с ребёнком из детсада: они милые, ошибаются, путаются, галлюцинируют, но это весело.»
💡Факты:
- Nanochat тренируется с нуля
- Самая маленькая модель Nanochat содержит примерно в тысячу раз меньше параметров, чем GPT-3.
- Обнолвенный скрипт run1000.sh уже доступен в репозитории
📎 Подробности и отчёт:
https://github.com/karpathy/nanochat/discussions/8
Карпати уже тестирует веб-чат с моделью (ссылку не публикует, чтобы не обвалили сервер).
Дальше -оптимизация и возможно, переход к следующему уровню масштабирования.
#AI#LLM#Nanochat#Karpathy#AIresearch#OpenSourceAI
🚀 AI TRENDS | Secure Blockchain Acquires Agentic Solutions in Stock Deal
Secure Blockchain, a publicly traded Canadian company, has announced the acquisition of Agentic Solutions Limited, an AI Agent company based on ElizaOS, in an all-stock transaction valued at approximately $450,000, equivalent to 5 million common shares. According to Foresight News, the company also completed a private placement financing of $1.5 million, with the Eliza Foundation subscribing to about 50% of the shares, amounting to roughly $750,000. The funds raised will be allocated to AI Agent development, platform construction, and operational expenses.
Additionally, Secure Blockchain settled $500,000 of debt through the issuance of approximately 4.44 million shares. Following the transaction, the total share capital stands at about 32.59 million shares, with a market value estimated at $3.67 million based on the financing price. The related shares are locked until August 11, 2026. Agentic Solutions is a commercial partner of ElizaOS, focusing on developing enterprise-level AI Agent products within this framework. ElizaOS, created by Eliza Labs, is one of the most active open-source AI Agent frameworks currently available. Secure Blockchain, previously specializing in blockchain embedded email encryption services, is transitioning into the Agentic AI sector following this acquisition.
#AI#Blockchain#Acquisition#Financing#ElizaOS#AgenticSolutions#StockDeal#EnterpriseAI#OpenSourceAI#TechInvestment
⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B
Tencent выложила в open-source новую модель HunyuanOCR.
Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan.
Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске.
⚡ Топ по бенчмаркам
• 860 на OCRBench среди всех моделей до 3B
• 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов
🌐 Что умеет HunyuanOCR
Модель закрывает практически все типы OCR задач
• текст на улицах, витринах, табличках
• рукописный текст и художественные шрифты
• сложные документы: таблицы, формулы, встроенный HTML и LaTeX
• субтитры в видео
• перевод текста на фото end-to-end сразу на 14 языков
Это не каскадный пайплайн, а единое решение
Один запрос и одно инференс-прогон дают готовый результат.
Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки.
📌 Project Page
web: https://hunyuan.tencent.com/vision/zh?tabIndex=0
mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
🔗GitHub
https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 Hugging Face
https://huggingface.co/tencent/HunyuanOCR
📄 Technical Report
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@ai_machinelearning_big_data
#HunyuanOCR#TencentAI#OCR#VisionAI#DeepLearning#Multimodal#AIModels#OpenSourceAI#ComputerVision#DocumentAI