⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B
Tencent выложила в open-source новую модель HunyuanOCR.
Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan.
Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске.
⚡ Топ по бенчмаркам
• 860 на OCRBench среди всех моделей до 3B
• 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов
🌐 Что умеет HunyuanOCR
Модель закрывает практически все типы OCR задач
• текст на улицах, витринах, табличках
• рукописный текст и художественные шрифты
• сложные документы: таблицы, формулы, встроенный HTML и LaTeX
• субтитры в видео
• перевод текста на фото end-to-end сразу на 14 языков
Это не каскадный пайплайн, а единое решение
Один запрос и одно инференс-прогон дают готовый результат.
Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки.
📌 Project Page
web: https://hunyuan.tencent.com/vision/zh?tabIndex=0
mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
🔗GitHub
https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 Hugging Face
https://huggingface.co/tencent/HunyuanOCR
📄 Technical Report
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@ai_machinelearning_big_data
#HunyuanOCR#TencentAI#OCR#VisionAI#DeepLearning#Multimodal#AIModels#OpenSourceAI#ComputerVision#DocumentAI
🔥Google выпустила Gemma 4 — самую умную открытую модель на сегодня
Если вы следите за open-source LLM, это важный релиз. Gemma 4 построена на тех же исследованиях, что и Gemini 3, но работает локально — на вашем железе.
Почему стоит обратить внимание:
🧠Прорывной интеллект — для сложных рассуждений и агентных workflows
🌐Мультимодальность и 140+ языков «из коробки»
📄Огромный контекст — до 256K токенов
🛠Нативные функции для вызовов инструментов и автономных агентов
💻 Качественная генерация кода (офлайн)
⚖️Apache 2.0 — можно использовать в коммерческих проектах без ограничений
Доступны 4 размера модели в Google AI Studio. Для локального использования скачайте веса на Hugging Face, Kaggle и Ollama.
👉Больше деталей
#Gemma4#OpenSourceAI#LLM
https://t.me/semasci
#computervision#cases
Tumblr учит ИИ банить порно –– пока получается плохо.
В конце прошлого года Tumblr запретил взрослый контент в микроблогах. 17 декабря, после того, как новые правила вступили в силу, стало очевидно, что искоренить порно –– задача непростая, и сделать это с помощью одних модераторов не получится. Специально обученный ИИ ошибочно удалил миллионы невинных картинок (досталось рыбкам, цветам, котятам), а, к примеру, хентай, не пострадал.
Почему важно: Удивительно, что Tumblr наступил на грабли новичка в области машинного обучения. В подобных задачах классификации самый важный шаг –– сбор не порноконтента, а данных, которые не являются NSFW (Not Safe For Work, другими словами –– nudity). Попытка обучить нейросеть на материале с Pornhub, очевидно провалилась. Без дополнительной фильтрации это бесполезно. Возьмем куриное яйцо –– ИИ будет упорно отправлять его в запрещенный контент, потому что для него все цвета человеческой кожи –– nudity.
Tumblr, скорее всего, уже осознал ошибку –– пока не сбалансируется обучающая выборка, котята будут улетать в бан. Как это сделать? #Active_learning хорошо справляется с подобными задачами: надо обучить нейросеть по обширной базе случайных картинок, допустим, с Flickr, где нет nudity, и отправить результаты разметчикам –– они отметят, где модель допустила ошибку. Таким образом обучающая выборка расширится максимально полезными данными, и хентай будет побежден. Учитесь на чужих ошибках, и не переживайте –– их допускает даже Tumblr.
Отличная новость для всех, кто работает с документами! 🚀
На платформе Hugging Face появилась полезная и автономная модель для OCR и анализа документов: NuMarkdown-8B-Thinking.
Что интересного: Это первая в мире Reasoning OCR VLM (Vision-Language Model), которая умеет "думать".
В чём прорыв?
Модель специально обучена превращать сложные документы (PDF, сканы, скриншоты) в идеально структурированные Markdown-файлы. Она идеально подходит для систем RAG (Retrieval-Augmented Generation), особенно если у Вас много неструктурированных данных в виде сканов...
Ключевая фишка — "рассуждения":
Перед тем как выдать ответ, модель генерирует внутренние "токены размышления" (<think>), чтобы проанализировать структуру документа: заголовки, таблицы, списки, сложное форматирование. Это позволяет ей блестяще справляться с нестандартными макетами.
Результаты:
В независимых тестах модель обходит GPT-4o и специализированные OCR-решения, а по качеству работы с документами конкурирует с гигантами вроде Gemini 2.5 Pro.
При этом модель распространяется по лицензии MIT, что означает минимальные ограничения в использовании, в том числе в коммерческих целях.
Попробовать демо и узнать технические детали можно здесь: hugging face
Хороший шаг для автоматизации обработки документов. Технология "рассуждающего" ИИ добралась и до OCR.
Что думаете? Где бы вы применили такую модель?
#ИскусственныйИнтеллект#AI#OCR#Документы#RAG#HuggingFace#ВизуальныеМодели
https://t.me/semasci
✅ Завтра
✅ AI.Hack Москва
📅 16–18 марта / 19:00–22:00 (время МСК) / Москва, проспект Мира, 121
💵 Бесплатно
📝 Регистрация тут: https://goo.gl/3gkRj6
Приглашаем программистов нейросетей, специалистов по machine learning, deep learning, data scientists, computer vision, предпринимателей с опытом развития технологичных бизнесов и всех заинтересованных принять участие!
Призовой фонд хакатона: 600 000 руб.
#MachineLearning#DeepLearning#DataScientists#Москва