TGTGInsightаналитика telegramLIVE / telegram public index
← DeepSchool
DeepSchool avatar

TGINSIGHT POST

Post #480

@deep_school

DeepSchool

Просмотры6,190Количество просмотров
Опубликован7 февр.07.02.2025, 11:10
Содержимое поста

Содержимое

DB: text detection OCR-решения обычно разбиваются на два этапа: сегментация (детекция) текста и его распознавание. Сегодня мы поговорим о сегментации текста и разберём архитектуру DB (Differentiable Binarization). Обычно в задаче бинарной сегментации мы получаем матрицу, в которой у каждого пикселя стоит уверенность в том, что он принадлежит классу. Затем нам нужно сделать постпроцессинг, чтобы превратить уверенности в метки 0, 1 (бинаризовать). Модель DB предложила интегрировать процесс бинаризации в сегментационную сеть. Это позволило упростить архитектуру и устранить необходимость в сложном постпроцессинге. Вместо традиционного подхода, где текстовые области выделяются через множество этапов, DB использует дифференцируемую бинаризацию, которая оптимизируется вместе с обучением модели. Такой подход обеспечивает высокую точность и эффективность. Кроме того, модель включает адаптивное слияние масштабов (ASF), что позволяет ей справляться с текстами различных размеров и форм. Благодаря своей скорости и точности DB стала часто использоваться для задач обнаружения текста, включая обработку документов, сцен с текстом и мобильные OCR-приложения. Читайте новую статью по ссылке, чтобы ближе познакомиться с архитектурой и обучением DB: https://deepschool-pro.notion.site/Differentiable-Binarization-DB-text-detection-1da969e72d1245e08ca4ca12eae56417?pvs=4