Post #402

@MachineLearningResearch

AML

Views155Post view count

PostedOct 2010/20/2025, 03:46 PM

Post content

DeepSeek выпустили новую модель DeepSeek-OCR — это Ml-модель, которая извлекает текст из документов, изображений и PDF-файлов Главное отличие от привычных OCR-систем: модель не просто "читает" текст, а понимает структуру документа и может работать с разными форматами вывода Интересный концепт в статье — имитация человеческой памяти Модель может сжимать старые части документа сильнее, чем новые, подобно тому, как мы помним недавние события детально, а далёкие — размыто Ключевые возможности: 1. Модель предлагает 6 режимов работы — от экономичного Tiny (64 визуальных токена) до мощного Gundam-M (1853 токена) 2. Обучена на 30.000.000 страниц документов на 100+ языках Основной фокус — китайский и английский (25.000.000 страниц), но работает и с другими языками Модель состоит из DeepEncoder и DeepSeek-3B-MoE декодер Инфраструктура: - Python 3.12.9, CUDA 11.8, PyTorch 2.6.0 - Поддержка vLLM для высокопроизводительной обработки (~2500 токенов/сек на A100-40G для PDF) - Доступна через Hugging Face Transformers Практические сценарии использования: 1. Обработка архивов 2. Автоматизация документооборота 3. Мультиязычная поддержка 4. Научные исследования — распознавание формул, таблиц, диаграмм из публикаций