TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #9070 · 25 нояб.

⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B Tencent выложила в open-source новую модель HunyuanOCR. Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan. Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске. ⚡ Топ по бенчмаркам • 860 на OCRBench среди всех моделей до 3B • 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов 🌐 Что умеет HunyuanOCR Модель закрывает практически все типы OCR задач • текст на улицах, витринах, табличках • рукописный текст и художественные шрифты • сложные документы: таблицы, формулы, встроенный HTML и LaTeX • субтитры в видео • перевод текста на фото end-to-end сразу на 14 языков Это не каскадный пайплайн, а единое решение Один запрос и одно инференс-прогон дают готовый результат. Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки. 📌 Project Page web: https://hunyuan.tencent.com/vision/zh?tabIndex=0 mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0 🔗GitHub https://github.com/Tencent-Hunyuan/HunyuanOCR 🤗 Hugging Face https://huggingface.co/tencent/HunyuanOCR 📄 Technical Report https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf @ai_machinelearning_big_data #HunyuanOCR#TencentAI#OCR#VisionAI#DeepLearning#Multimodal#AIModels#OpenSourceAI#ComputerVision#DocumentAI

Результаты

Найдено 4 похожих постов

🔥Google выпустила Gemma 4 — самую умную открытую модель на сегодня Если вы следите за open-source LLM, это важный релиз. Gemma 4 построена на тех же исследованиях, что и Gemini 3, но работает локально — на вашем железе. Почему стоит обратить внимание: 🧠Прорывной интеллект — для сложных рассуждений и агентных workflows 🌐Мультимодальность и 140+ языков «из коробки» 📄Огромный контекст — до 256K токенов 🛠Нативные функции для вызовов инструментов и автономных агентов 💻 Качественная генерация кода (офлайн) ⚖️Apache 2.0 — можно использовать в коммерческих проектах без ограничений Доступны 4 размера модели в Google AI Studio. Для локального использования скачайте веса на Hugging Face, Kaggle и Ollama. 👉Больше деталей #Gemma4#OpenSourceAI#LLM https://t.me/semasci

AI Happens

@aihappens · Post #14 · 07.02.2019, 16:42

#computervision#cases Tumblr учит ИИ банить порно –– пока получается плохо. В конце прошлого года Tumblr запретил взрослый контент в микроблогах. 17 декабря, после того, как новые правила вступили в силу, стало очевидно, что искоренить порно –– задача непростая, и сделать это с помощью одних модераторов не получится. Специально обученный ИИ ошибочно удалил миллионы невинных картинок (досталось рыбкам, цветам, котятам), а, к примеру, хентай, не пострадал. Почему важно: Удивительно, что Tumblr наступил на грабли новичка в области машинного обучения. В подобных задачах классификации самый важный шаг –– сбор не порноконтента, а данных, которые не являются NSFW (Not Safe For Work, другими словами –– nudity). Попытка обучить нейросеть на материале с Pornhub, очевидно провалилась. Без дополнительной фильтрации это бесполезно. Возьмем куриное яйцо –– ИИ будет упорно отправлять его в запрещенный контент, потому что для него все цвета человеческой кожи –– nudity. Tumblr, скорее всего, уже осознал ошибку –– пока не сбалансируется обучающая выборка, котята будут улетать в бан. Как это сделать? #Active_learning хорошо справляется с подобными задачами: надо обучить нейросеть по обширной базе случайных картинок, допустим, с Flickr, где нет nudity, и отправить результаты разметчикам –– они отметят, где модель допустила ошибку. Таким образом обучающая выборка расширится максимально полезными данными, и хентай будет побежден. Учитесь на чужих ошибках, и не переживайте –– их допускает даже Tumblr.

Отличная новость для всех, кто работает с документами! 🚀 На платформе Hugging Face появилась полезная и автономная модель для OCR и анализа документов: NuMarkdown-8B-Thinking. Что интересного: Это первая в мире Reasoning OCR VLM (Vision-Language Model), которая умеет "думать". В чём прорыв? Модель специально обучена превращать сложные документы (PDF, сканы, скриншоты) в идеально структурированные Markdown-файлы. Она идеально подходит для систем RAG (Retrieval-Augmented Generation), особенно если у Вас много неструктурированных данных в виде сканов... Ключевая фишка — "рассуждения": Перед тем как выдать ответ, модель генерирует внутренние "токены размышления" (<think>), чтобы проанализировать структуру документа: заголовки, таблицы, списки, сложное форматирование. Это позволяет ей блестяще справляться с нестандартными макетами. Результаты: В независимых тестах модель обходит GPT-4o и специализированные OCR-решения, а по качеству работы с документами конкурирует с гигантами вроде Gemini 2.5 Pro. При этом модель распространяется по лицензии MIT, что означает минимальные ограничения в использовании, в том числе в коммерческих целях. Попробовать демо и узнать технические детали можно здесь: hugging face Хороший шаг для автоматизации обработки документов. Технология "рассуждающего" ИИ добралась и до OCR. Что думаете? Где бы вы применили такую модель? #ИскусственныйИнтеллект#AI#OCR#Документы#RAG#HuggingFace#ВизуальныеМодели https://t.me/semasci

IT Events RU

@iteventsru · Post #283 · 15.03.2018, 16:13

✅ Завтра ✅ AI.Hack Москва 📅 16–18 марта / 19:00–22:00 (время МСК) / Москва, проспект Мира, 121 💵 Бесплатно 📝 Регистрация тут: https://goo.gl/3gkRj6 Приглашаем программистов нейросетей, специалистов по machine learning, deep learning, data scientists, computer vision, предпринимателей с опытом развития технологичных бизнесов и всех заинтересованных принять участие!​ Призовой фонд хакатона: 600 000 руб. #MachineLearning#DeepLearning#DataScientists#Москва