Post #591

@kapustabeijing

Пекинская капуста

Просмотры171Количество просмотров

Опубликован20 окт.20.10.2025, 14:18

Содержимое поста

Содержимое

#DeepSeekвыпустили новую модель DeepSeek-OCR — это ИИ-модель, которая извлекает текст из документов, изображений и PDF-файлов. Главное отличие от привычных OCR-систем: модель не просто "читает" текст, а понимает структуру документа и может работать с разными форматами вывода. Интересный концепт в статье — имитация человеческой памяти. Модель может сжимать старые части документа сильнее, чем новые, подобно тому, как мы помним недавние события детально, а далёкие — размыто. Ключевые возможности: 1. Модель предлагает 6 режимов работы — от экономичного Tiny (64 визуальных токена) до мощного Gundam-M (1853 токена). 2. Обучена на 30 млн страниц документов на 100+ языках. Основной фокус — китайский и английский (25млн страниц), но работает и с другими языками. Модель состоит из DeepEncoder и DeepSeek-3B-MoE декодер. Инфраструктура: - Python 3.12.9, CUDA 11.8, PyTorch 2.6.0 - Поддержка vLLM для высокопроизводительной обработки (~2500 токенов/сек на A100-40G для PDF) - Доступна через Hugging Face Transformers. Практические сценарии использования: 1. Обработка архивов 2. Автоматизация документооборота 3. Мультиязычная поддержка 4. Научные исследования — распознавание формул, таблиц, диаграмм из публикаций