TGTGInsighttelegram intelligenceLIVE / telegram public index
← GitHub Trends

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @githubtrending · Post #15421 · Jan 18

#python#audio#deeplearning#minicpm#python#pytorch#speech#speech_synthesis#text_to_speech#tts#tts_model#voice_cloning VoxCPM is a free, open-source TTS tool that turns text into realistic speech without tokens, creating expressive audio that matches context and clones voices perfectly from just 3-10 seconds of sample. Download VoxCPM1.5 (800M params) from Hugging Face, install via pip, and use simple Python or CLI commands for fast synthesis (RTF 0.15 on RTX 4090) or fine-tuning your own voices. You benefit by easily making natural audiobooks, podcasts, clones, or apps with pro-quality sound—saving time and costs on voice work. https://github.com/OpenBMB/VoxCPM

Results

1 similar post found

Search: #medsam3

当前筛选 #medsam3清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9132 · 11/30/2025, 11:14 AM

🌟MedSAM-3: адаптация SAM 3 для медицины. MedSAM-3 - исследовательский проект, который переносит возможности сегментации по текстовым запросам из общего домена в медицинский. Несмотря на мощь оригинальной SAM 3, тесты показали ее слабую применимость к клиническим данным: базовая модель часто путает анатомические структуры и не понимает специфические термины. MedSAM-3 решает эту проблему, позволяя врачам выделять объекты на снимках МРТ, КТ, УЗИ и гистопатологии с помощью естественного языка. Например, по запросу «сегментируй опухоль молочной железы». В основе - дизайн SAM 3 с двойным трансформером. На обучении заморозили энкодеры изображений и текста, чтобы сохранить сильные визуальные приоритеты оригинала, а вот компоненты детектора прошли SFT на медицинских датасетах. Это позволило сохранить мощный базис оригинальной SAM 3, но добавить ей понимание медицинской специфики. В посттрейн-тестах наилучшую производительность показала конфигурация MedSAM-3 T+I, где текстовые подсказки были объединены с ограничивающими рамками. Такой подход позволил тестовой модели обойти классический U-Net и первую версию MedSAM на бенчмарках BUSI (Dice score - 0.7772) и Kvasir-SEG. 🟡Помимо самой модели, разработчики собрали агентный фреймворк MedSAM-3 Agent. Он использует мультимодальную LLM (в экспериментах - Gemini 3 Pro) в качестве планировщика, который анализирует запрос, выстраивает цепочку рассуждений и итеративно управляет процессом сегментации. В эксперименте c Gemini 3 Pro, на том же тестовом наборе BUSI, метрика Dice выросла с 0.7772 до 0.8064. ⚠️ Проект пока на стадии техотчета, но разработчики обещают опубликовать код и веса модели в ближайшее время. Так что тем, кто занимается ИИ в медицине - рекомендуем следить за репозиторием на Github. 📌Лицензирование: Apache 2.0 License. 🟡Arxiv 🖥Github @ai_machinelearning_big_data #AI#ML#Segmentation#MedSAM3