Post #113

@deep_school

DeepSchool

Просмотры6,950Количество просмотров

Опубликован30 янв.30.01.2023, 07:21

Содержимое поста

Содержимое

Visual Transformer (ViT) Вот и кульминация серии постов про attention🚀 Разобрали первый трансформер для изображений ViT. Это очень полезный материал, который поможет вам разобраться в трансформерах. Прочитав нашу большую статью, вы узнаете/вспомните: - из каких частей состоит ViT и что делает каждая из них; - почему в ViT перепутаны слои энкодера; *интрига* - что такое Multi-Head Self-Attention; - зачем нужен [cls]-токен; - чем отличается BatchNorm от LayerNorm. Также каждую часть трансформера мы реализовали в коде, который вы можете повторить, чтобы глубже разобраться в архитектуре. Читайте и делитесь с коллегами, приятного чтения: https://deepschool-pro.notion.site/ViT-a6854b69af4945a89870cfc497654bf1