TGINSIGHT CHAT
Machinelearning
@ai_machinelearning_big_data
ТехнологииПогружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Последние посты
Тег: #opensourceai · 5 постов
⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B Tencent выложила в open-source новую модель HunyuanOCR. Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan. Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске. ⚡ Топ по бенчмаркам • 860 на OCRBench среди всех моделей до 3B • 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов 🌐 Что умеет HunyuanOCR Модель закрывает практически все типы OCR задач • текст на улицах, витринах, табличках • рукописный текст и художественные шрифты • сложные документы: таблицы, формулы, встроенный HTML и LaTeX • субтитры в видео • перевод текста на фото end-to-end сразу на 14 языков Это не каскадный пайплайн, а единое решение Один запрос и одно инференс-прогон дают готовый результат. Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки. 📌 Project Page web: https://hunyuan.tencent.com/vision/zh?tabIndex=0 mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0 🔗GitHub https://github.com/Tencent-Hunyuan/HunyuanOCR 🤗 Hugging Face https://huggingface.co/tencent/HunyuanOCR 📄 Technical Report https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf @ai_machinelearning_big_data #HunyuanOCR#TencentAI#OCR#VisionAI#DeepLearning#Multimodal#AIModels#OpenSourceAI#ComputerVision#DocumentAI
⚡️LongCat-Flash-Omni - открытая 560B MoE-модель (27B активных параметров), которая умеет вести живой диалог в реальном времени, слышать, видеть и отвечать голосом. Ключевые фишки: -модель разговаривает и видит собеседника, реагирует на беседу в реальном времени - 128K контекст - продвинутая MoE-архитектура: высокое качество при меньших затратах (27B активных параметров из 560B) - Полгный open-source По тестам: - лидер на OmniBench, DailyOmni - хорошие показатели на ASR (распознавании речи), DocVQA, RefCOCO - обходит лучше Qwen3-Omni Instruct - и очень близка к Gemini-2.5-Flash, но это все таки*открытая* модель Открытая мультимодальная модель, которую можно запускать локально, хороший вариант для голосовых ассистентов. 🤖Model: https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Omni 🌐Demo: https://longcat.ai 📄 Full technical report & code: https://github.com/meituan-longcat/LongCat-Flash-Omni @ai_machinelearning_big_data #AI#OpenSourceAI#Multimodal#MoE#LLM#GenAI
🔥 Nanochat D32 : микромодель Карпаты за $1000, которая реально работает Карпаты написал, что завершил обучение Nanochat D32, обученной за 33 часа при бюджете $1000 (вместо $100). Результаты - удивительно хорошие для такой «крошки»: - 📈CORE score: 0.31 (выше, чем у GPT-2 — ~0.26) - 🧮GSM8K: с 8% до 20% - 🚀 Рост виден на всех этапах - pretraining, SFT и RL Карпати пишет: > «Не ждите от микромоделей чудес. Они обходятся $100–$1000, а не миллиарды долларов, как у крупных лабораторий. > Разговаривать с моделью - как с ребёнком из детсада: они милые, ошибаются, путаются, галлюцинируют, но это весело.» 💡Факты: - Nanochat тренируется с нуля - Самая маленькая модель Nanochat содержит примерно в тысячу раз меньше параметров, чем GPT-3. - Обнолвенный скрипт run1000.sh уже доступен в репозитории 📎 Подробности и отчёт: https://github.com/karpathy/nanochat/discussions/8 Карпати уже тестирует веб-чат с моделью (ссылку не публикует, чтобы не обвалили сервер). Дальше -оптимизация и возможно, переход к следующему уровню масштабирования. #AI#LLM#Nanochat#Karpathy#AIresearch#OpenSourceAI
✔️ Tencent представила Hunyuan3D-Omni: первую в индустрии модель для генерации 3D-объектов с мультиконтрольным управлением. Модель ростроенная на базе open-source Hunyuan3D 2.1 и называемая «ControlNet для 3D», система решает проблемы кривых генераций и искажённой геометрии, интегрируя до четырёх условий контроля. Две ключевые инновации: - Лёгкий унифицированный энкодер управления для эффективного мультимодального фьюжна - Стратегия прогрессивного обучения по сложности, повышающая устойчивость модели Возможности: - Управление по одному изображению и наброску позволяет точно задавать позы для анимаций и аватаров - Использование облака точек (полного или построенного по глубине): убирает визуальную неопределённость и обеспечивает реалистичную геометрию - Контроль через bounding box: задаёт пропорции объекта (длину, ширину и высоту) в соответствии с дизайном - Voxel-контроль: формирует топологию объекта, что удобно и для инженерных, и для творческих сценариев Tencent дропнули код и веса. 🟢Код: https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni 🟢Веса: https://huggingface.co/tencent/Hunyuan3D-Omni 🟢Отчёт: https://arxiv.org/pdf/2509.21245 @ai_machinelearning_big_data #3DGenAI#TencentHunyuan#OpenSourceAI
⚡️Новая модель LFM2-2.6B - лидер в классе до 3B параметров. Ключевые особенности: - лёгкая и быстрая, всего 2.6B параметров - построена на архитектуре v2 (short convs + group query attention) - обучена на 10 трлн токенов, поддерживает контекст до 32k LFM2-2.6B - компактная, но мощная моделька для широкого спектра задач. 🟠Blog post: https://liquid.ai/blog/introducing-lfm2-2-6b-redefining-efficiency-in-language-models 🟠HF: https://huggingface.co/LiquidAI/LFM2-2.6B 🟠Model Bundle on LEAP: https://leap.liquid.ai/models?model=lfm2-2.6b @ai_machinelearning_big_data #AI#LLM#LFM2#OpenSourceAI#Multilingual