Post #386

@deep_school

DeepSchool

Просмотры4,630Количество просмотров

Опубликован24 июн.24.06.2024, 12:13

Содержимое поста

Содержимое

CLIP4STR Мультимодальные модели прочно входят в современные практические пайплайны многих решений на базе LLM. В области OCR их появление было ожидаемым: такие модели при обучении применяют не только картинки, но и текст. А если речь заходит об одновременном использовании картиночных и текстовых фичей — в обязательном порядке появляется CLIP. В этой статье мы: - узнаем, как можно использовать CLIP для задачи OCR - разберём архитектуру новой SOTA для распознавания текста - и ещё раз убедимся, что мультимодальность — сила Читайте нашу статью по ссылке: https://deepschool-pro.notion.site/CLIP4STR-2f451ad6ab8c4041a11b426049edcd53?pvs=4