TGINSIGHT CHAT
Machinelearning
@ai_machinelearning_big_data
ТехнологииПогружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Последние посты
Тег: #ocr · 7 постов
🌟PaddleOCR-VL-1.5: компактная модель для сложного парсинга. PaddlePaddle обновили свою линейку PaddleOCR-VL, выпустив PaddleOCR-VL-1.5 - компактную VLM на 0.9 млрд. параметров на базе ERNIE-4.5-0.3B-Paddle. Несмотря на скромный размер, в задачах разбора документов она показывает SOTA-результаты. На тесте OmniDocBench v1.5 модель выбила 94.5% точности, обойдя не только прошлую версию, но и более тяжелых конкурентов. Фишка обновления - упор на полевые условия. Модель специально учили работать с плохими исходниками: кривыми сканами, бликами от мониторов и мятыми страницами. Попутно сделали бенчмарк Real5-OmniDocBench, который гоняет модели по 5 сценариям: сканирование, перекосы, деформация листа, фото с экрана и плохое освещение. 🟡В 1.5 добавили: 🟢Text spotting: находит и распознает текст одновременно (печатный русский - неплохо, рукописный - почти никак) 🟢Seal recognition: распознает печати (русские - не очень, китайские - на ура). 🟢Cross-page table merging: умеет склеивать таблицы, которые разорваны между страницами. 🟢Работа с заголовками: не теряет структуру параграфа при переходе на новый лист. 🟢Новые языки: добавили поддержку тибетского и бенгальского, подтянули распознавание редких символов и древних текстов. 🟡Деплой - на любой вкус Модель работает с transformers, дружит с Flash Attention 2 и, само собой, поддерживается PaddlePaddle 3.2.1. Если нужно быстро поднять сервис - есть готовый Docker-образ. 🟡Пара важных моментов по использованию Если нужен полноценный постраничный парсинг всего документа, лучше использовать официальный пакет PaddleOCR. Реализация через transformers пока ограничена только распознаванием отдельных элементов и споттингом. В пайплайн встроили логику препроцессинга. Если картинка меньше 1500 пикселей, она автоматом апскейлится фильтром Lanczos. При этом есть потолок в 1.6 млн. пикселей для споттинга, это чтобы не перегружать память GPU и сохранить читаемость мелкого шрифта. 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🟡Demo 🟡DeepWiki 🖥Github @ai_machinelearning_big_data #AI#ML#VL#OCR#PaddleOCR
Hashtags
🐋DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA. Ключевая новинка - DeepEncoder V2. В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек: - Сначала формируется глобальное понимание изображения - Затем модель определяет логический порядок чтения — что важно первым, что дальше Что это даёт на практике 📄 Лучше работает со сложными макетами документов 📊 Корректно читает таблицы 🧾 Связывает подписи и значения 📰 Понимает колонки и структурированный текст 🔀 Надёжнее обрабатывает смесь текста и визуальной структуры По качеству - Обходит Gemini 3 Pro на ряде бенчмарков - Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR И это при размере модели всего 3B параметров. Можно запускать и дообучать Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду. 🔗Guide: https://unsloth.ai/docs/models/deepseek-ocr-2 🔗Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 🔗Github: https://github.com/deepseek-ai/DeepSeek-OCR-2/tree/main 🔗Paper: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf @ai_machinelearning_big_data #DeepSeek#ocr#opensource
Hashtags
🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов. Ключевое: - Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF - Уверенно работает со сканами, рукописным текстом и нестандартной версткой - Возвращает структурированный результат, а не просто сырой текст - Подходит для автоматизации Document AI и downstream-аналитики - Доступен через API и готов к продакшен-использованию Главное - На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом. - Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения. - Используется в Document AI Playground: В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON. https://mistral.ai/news/mistral-ocr-3 @ai_machinelearning_big_data #ocr#mistal#llm
⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B Tencent выложила в open-source новую модель HunyuanOCR. Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan. Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске. ⚡ Топ по бенчмаркам • 860 на OCRBench среди всех моделей до 3B • 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов 🌐 Что умеет HunyuanOCR Модель закрывает практически все типы OCR задач • текст на улицах, витринах, табличках • рукописный текст и художественные шрифты • сложные документы: таблицы, формулы, встроенный HTML и LaTeX • субтитры в видео • перевод текста на фото end-to-end сразу на 14 языков Это не каскадный пайплайн, а единое решение Один запрос и одно инференс-прогон дают готовый результат. Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки. 📌 Project Page web: https://hunyuan.tencent.com/vision/zh?tabIndex=0 mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0 🔗GitHub https://github.com/Tencent-Hunyuan/HunyuanOCR 🤗 Hugging Face https://huggingface.co/tencent/HunyuanOCR 📄 Technical Report https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf @ai_machinelearning_big_data #HunyuanOCR#TencentAI#OCR#VisionAI#DeepLearning#Multimodal#AIModels#OpenSourceAI#ComputerVision#DocumentAI
🦉 LightOnOCR-1B: новая быстрая OCR-модель от LightOn Модель дистиллирована из Qwen2-VL-72B-Instruct и обучена на корпусе из 17.6 млн страниц / 45.5 млрд токенов. 🔥 Главное:** -1 B параметров - позволяет обрабатывать 5.7 страниц/с на одном H100 (это примерно ≈ 493 000 страниц за день) - Распознаёт таблицы, формы, уравнения и сложные макеты - 6.5× быстрее dots.ocr, 1.7× быстрее DeepSeekOCR - Расходы < $0.01 за 1000 страниц A4 📊 Качество (Olmo-Bench): - Превосходит DeepSeekOCR - Сопоставима с dots.ocr (при этом модель в 3 раза меньше по весу) - +16 пт к Qwen3-VL-2B-Instruct Эта моделька - отличный баланс качества, скорости и стоимости. 🟢Модель 1B: https://huggingface.co/lightonai/LightOnOCR-1B-1025 🟢Модель 0.9B (32k): https://huggingface.co/lightonai/LightOnOCR-0.9B-32k-1025) 🟢Блог LightOn:https://huggingface.co/blog/lightonai/lightonocr 🟢Демка: https://huggingface.co/spaces/lightonai/LightOnOCR-1B-Demo @ai_machinelearning_big_data #ocr#ml
📄 DeepSeek-OCR - модель для распознавания текста 🔍 DeepSeek выпустили мощную OCR-модель, способную преобразовывать изображения документов прямо в Markdown или текст. Что умеет: - Распознаёт текст на изображениях и в PDF - Работает с документами, таблицами и сложными макетами - Поддерживает разные режимы: Tiny, Small, Base, Large - Оптимизирована под GPU (PyTorch + CUDA 11.8) - MIT-лицензия — можно свободно использовать и модифицировать DeepSeek-OCR достигает высокой точности и эффективности за счёт компрессии визуальных токенов. На Omnidocbench - лучшая точность при минимуме визуальных токенов, превосходит другие OCR-модели по эффективности и скорости. 🟠HF: https://huggingface.co/deepseek-ai/DeepSeek-OCR 🟠Github: https://github.com/deepseek-ai/DeepSeek-OCR 🟠Paper: https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf @ai_machinelearning_big_data #ocr#DeepSeek
📄PaddleOCR-VL (0.9B) — компактная Vision-Language модель нового поколения Команда Baidu AI представила PaddleOCR-VL (0.9B) — сверхлёгкую VLM-модель, которая достигает SOTA-точности в задачах распознавания: - текстов, - таблиц, - формул, - графиков 💡Под капотом: - NaViT - динамический vision-энкодер - ERNIE - облегчённая языковая модель от Baidu ⚡️ Поддержка 109 языков. 🟠GitHub: https://github.com/PaddlePaddle/PaddleOCR) 🟠HuggingFace: https://huggingface.co/PaddlePaddle/PaddleOCR-VL 🟠Docshttps://paddleocr.ai/latest/en/index.html @ai_machinelearning_big_data #BaiduAI#PaddlePaddle#Ernie#PaddleOCR#VisionLanguage#AI#OCR