Post #357

@ml_baldini

ML Baldini • Nikita Boyandin

Görüntülemeler2,060Gönderi görüntüleme sayısı

Yayınlandı12 Oca12.01.2026 15:01

İçerik

Gönderi içeriği

Мультиязычный OCR 🍑 В моей последней курсовой меня занесло в мультиязычный OCR и я был уверен, что все сделаем vlm и все победа идем пить чай. Но реальность была другой, да и сам vlm оказался не такой уж и революцией... В целом есть три парадигмы: CRNN, Visual Transformer или TrOCR(что там, что там используем трансформер в формате кодера) и vlm. Но если копнуть глубже, то vlm будет использовать использовать тот же ViT, а TrOCR использовать BERT, поэтому фактически парадигмы все две. Логично из названия предположить, что CRNN внутри состоит из двух частей - CNN, которая распознает картинку, и RNN, которая обрабатывает последовательность символов. CNN вытаскивает фичи из изображения текста, а RNN (часто BiLSTM) декодирует это в текст, учитывая контекст. Очень важную роль играет функция потерь - CTC, которая помогает выравнивать последовательность и избежать пробелов(например, из --hh-e-l-ll-oo-- сделать hello). Кажется, что технология достаточно древняя, но лидеры продовых решений EasyOCR и PaddleOCR все еще используют части этого решения. Почитать тут 😎 Теперь про трансформеры: Visual Transformer (ViT) или TrOCR - это уже современный подход, где вместо CNN+RNN мы пихаем всё в трансформер. ViT берёт картинку, разбивает на патчи и кодер их обрабатывает, а потом декодер (как в BERT) генерит текст. TrOCR, кстати, комбинирует ViT с BERT-подобным декодером, чтобы лучше понимать язык. Плюс в том, что трансформеры круто справляются с контекстом и мультиязычностью из коробки, особенно если предобучены на огромных датасетах в несколько раз больше, чем нужны для CRNN. Почитать тут 💃 А vlm? Я думал, это прорыв, модель, которая видит картинку и понимает язык одновременно, как CLIP, но адаптированная под OCR. На деле это часто обёртка над ViT + LLM, где визуальная часть та же, а языковая добавляет понимание. Но революции нет: если данные кривые, то и vlm лажает, плюс инференс медленный, а для мультиязыка нужно достаточно много данных. Думаю, как только все наиграются с агентами, то мы наконец-то получим нормальные датасеты и маловесные модели, но пока для обычных обывателей vlm является игрушкой💗