Содержимое
Введение в OCR. Часть 1 Ранее мы писали про CLIP4STR — SOTА-модель в OCR на основе трансформера. А сейчас решили сделать цикл публикаций об OCR, потому что задача обширная и популярная 🙂 OCR состоит из нескольких задач: найти текст ➡️ распознать текст ➡️ извлечь информацию. Последний пункт помогает, например, найти отправителя и получателя платежа или общую сумму в чеке. Для каждого из этапов есть свои модели. Но с появлением мультимодальных трансформеров можно решать все этапы End-to-End! В новой статье мы рассмотрим: - основные этапы решения OCR - ключевые SOTA-модели для каждого этапа - развитие подходов в OCR - и, конечно, современные бенчмарки / модели / фреймворки Читайте нашу статью по ссылке: https://deepschool-pro.notion.site/OCR-1-25c5e5c9f928486a80cb67020de270af?pvs=4