TGINSIGHT CHAT
DeepSchool
@deep_school
ОбразованиеЭто канал школы deepschool.ru. Здесь мы будем: - напоминать вам теорию ML/DL в виде коротких постов, - задавать вопросы с собеседований, - рассказывать про полезные фреймворки - и делиться советами, которые помогут вам в работе. @deepschool_support
Последние посты
Стр. 14 из 45 · 530 постов
Опубликован 15 янв.
Детекторы текста на основе трансформеров. Часть 2 Сегодня мы продолжим знакомство с детекторами текста на базе трансформеров. Такие детекторы совмещают возможности сегментационных и регрессионных моделей, что позволяет повысить точность детектирования при сохранении высокой скорости работы. Однако каждый подход имеет свои недостатки: сегментационные сети обеспечивают высокую точность при сложных формах текста, но их скорости недостаточно, тогда как регрессионные модели быстры, но менее точны для сложных случаев. SRFormer — пример современной архитектуры, которая стремится объединить сильные стороны двух методов. Также в статье мы рассмотрим MixNet, лидирующий на ключевых бенчмарках за счёт своей уникальной архитектуры. Его бэкбон FSNet перемешивает признаки высокого и низкого разрешения. Это помогает надёжнее детектировать мелкие объекты. Кроме того, трансформерный блок (CTBlock) улучшает выделение текстов, расположенных близко друг к другу, с помощью прогнозирования центральной линии текста. Читайте новую статью по ссылке, чтобы познакомиться ближе с данными детекторами текста на базе трансформеров: https://deepschool-pro.notion.site/2-e3a3419463b94ae0a81545109799ecde?pvs=4
Опубликован 13 янв.
В чём же считать: fp8, fp32 или fp16 В каких типах данных крутить нейронку, чтобы и память сэкономить, и точность не потерять? Float16, bfloat16, TF32, FP8 — за этими названиями скрываются разные способы оптимизации работы с числами меньшей разрядности. В новой статье мы разберёмся, как они работают, где их лучше применять, как учить и как инференсить. А ещё — с какими подводными камнями здесь можно столкнуться. Читайте новую статью по ссылке, чтобы ответить на эти вопросы: https://deepschool-pro.notion.site/int-8-fp32-fp16-f8041ec0b26f4627acae49f0ccf1975f?pvs=4 🪔DeepSchool
Опубликован 9 янв.
Подкаст «Под Капотом». CV в медицине Мы приглашаем в подкаст экспертов из различных областей, чтобы понять, как работают сложные системы изнутри. В этом выпуске мы поговорили с Александром Лекомцевым, Team Lead CV Engineer из oxytech.io, и обсудили: - особенности работы в стартапе, занимающемся медицинским CV - чем отличается медицинский CV от «обычного» - сложности разметки данных - сложно ли найти общий язык с врачами - настольно-ролевые игры как способ перезагрузиться Смотрите новый выпуск по ссылке! https://youtu.be/gX8scA7qtfI
Опубликован 30 дек.
🎄 Новогодние скидки 20-25% на наши курсы в преддверии 2025 года! Мы решили сделать вам подарок, которого хватит на весь будущий год! Выбирайте любой из 3 курсов ниже со скидкой -20%, и любой следующий курс от нашей школы будет выгоднее на 25%! Деплой DL…
Опубликован 27 дек.
CRAFT Препарируем динозавра, чтобы лучше понять устройство актуальных моделей. CRAFT — U-net подобная модель 2019 года, с VGG-16 внутри, которая призвана была решить проблему распознавания «in the wild» текста. В реальной жизни текст может состоять из символов разного шрифта, цвета, ориентации, с разными фонами и искажениями. Поэтому логично пробовать детектировать не целое слово за раз, а отдельные символы и промежутки между ними. Именно эту задачу и решает CRAFT. Но как получить разметку для таких данных в большом количестве? Какие недостатки у такой модели и почему она не работает в одиночку? На эти и другие вопросы мы ответили в новой статье: https://deepschool-pro.notion.site/CRAFT-afe83ca8925041cea46c287fd3611e7d?pvs=4
Опубликован 24 дек.
🎄Новогодние скидки 20-25% на наши курсы в преддверии 2025 года! Мы решили сделать вам подарок, которого хватит на весь будущий год! Выбирайте любой из 3 курсов ниже со скидкой -20%, и любой следующий курс от нашей школы будет выгоднее на 25%! Деплой DL-сервисов — освойте создание и деплой DL-сервисов LLM — научитесь обучать, деплоить и ускорять LLM Ускорение нейросетей — ускорьте нейросети на любых устройствах Вы можете выбрать: 1️⃣ Зафиксировать скидку 20% на один из 3 курсов выше предоплатой за обучение 2️⃣ Оплатить одну из программ выше полностью и получить скидку 25% на любой другой курс, который стартует в 2025 Более подробная информация об акции на сайте. 🗓 Новогодняя акция длится до 31 декабря Добавьте в планы на год повышение квалификации и сделайте это с выгодой! Переходите на сайт, выбирайте программу и присоединяйтесь к обучению в новом году со скидкой!
Опубликован 19 дек.
Продолжаем знакомиться с авторами DeepSchool ㅤ Недавно мы рассказали, как пишем статьи и сколько людей работает над материалами. Ранее мы познакомились с частью команды: Ксюша,Саша,Марк,Илья,Саша. А сегодня о себе расскажет Дима Раков, CV-инженер и Head of ML в NIIAS: «Мы делаем проекты для РЖД, где часто применяем нейросетевые подходы. Наш главный проект — разработка беспилотного электропоезда с уровнем автоматизации GoA4 (работает без машиниста в кабине). Я занимаюсь Autonomous Driving 5 лет. За это время вместе с командой мы смогли от начального прототипа разработать уже три системы для двух электропоездов и одного маневрового локомотива. А ещё мы первыми в мире запустили поезд с системой помощи машинисту (Goa3, аналогична системам ADAS в автомобилях) в постоянную эксплуатацию на МЦК (Московское центральное кольцо). Помимо беспилотников мы делаем много других проектов, направленных на повышение безопасности на ЖД. Впервые с ML я познакомился в 2018 году на втором курсе университета. Один из преподавателей предложил выступить на конференции, где в списке тем были BigData и нейронные сети. Я заинтересовался и начал изучать всевозможные книжки, лекции и туториалы. Так и погрузился в ML. В CV попал тоже случайно, когда в ВУЗе предложили поучаствовать в хакатоне от IBM. Случилось это примерно через полгода. Мне хватило навыков, чтобы зафайнтюнить Faster RCNN и занять призовое место. Так я решил, что CV — то, чем хочется заниматься. Тогда же начал ходить на ML-тренировки в СПБ (пишите, кто тоже ходил!) и продолжать активно участвовать в хакатонах. После продолжительной стажировки и летней школы HSE несколько месяцев проработал в качестве CV-инженера. Разрабатывал систему для задачи SceneTextOCR для русского языка. В начале 2020 присоединился к NIIAS, где работаю до сих пор. На работе мы решаем perception-задачи для разных сенсоров: камер, лидаров, тепловизоров. Встречаются такие классические задачи, как классификация, детекция, сегментация и трекинг, но со своими особенностями. Например, для обнаружения на 600 метрах детектор должен хорошо обнаруживать объекты 3x5 пикселей. Также мы решаем и специализированные задачи под автономный транспорт. Например, находим глубину по кадру и отделяем точки земли в лидарном облаке. Ещё есть открытые задачи, которые находятся в стадии исследования как у нас, так и у научного сообщества. Одна из них — нахождение неизвестных объектов на ЖД-полотне и в габарите электропоезда. Отдельное направление — ML Safety. В реальной эксплуатации нейронные сети внутри поезда должны быть безопасны и объяснимы. Чтобы достичь таких свойств, мы исследуем и разрабатываем алгоритмы нахождения аномалий и неопределённостей в данных и предсказаниях моделей. В DeepSchool я пишу статьи на темы, которые связаны с моими исследованиями или, на мой взгляд, недостаточно освещены в РУ сегменте. Также я лектор на курсах «3DCV» и «Деплой DL-сервисов». Помимо основных активностей люблю: - Смотреть турниры по смешанным единоборствам - Играть в CS - Проводить "диванную аналитику"» В комментариях можно пообщаться с Димой и задать интересующие вопросы :) Посты Димы: - Виды представления лидарных данных (часть 1,часть 2,часть 3) - Сегментация поверхности земли - Few-shot learning - Эффективные ансамбли - ModelSoups: варим суп из моделей - CV-задачи над 3D-данными
Опубликован 11 дек.
Segment Anything Model 2 Segment Anything Model (SAM) сильно упростила процесс разметки картинок в задачах Computer Vision. Как правило, если домен похож на обучение — SAM хорошо уточняет границы объектов за несколько кликов. Такой процесс называется Interactive Object Segmentation. Как это работает? Модель принимает на вход не только изображение, но и промпт (точку, бокс, маску), который указывает на нужный объект. Разные энкодеры обрабатывают изображение и промпт, отдельный лёгкий mask decoder переводит эмбеддинги изображения и промпта в предсказание маски объекта. Segment Anything Model 2(SAM 2) продолжает упрощать процесс разметки, в этот раз работая с видео. Для этого меняют архитектуру, чтобы добавить передачу информации между кадрами, а также собирают самый большой датасет для задачи Video Object Segmentation. Сегодня мы обсудим, чем архитектура второй версии отличается от первой, а также рассмотрим проблемы текущих датасетов для Video Object Segmentation и их решение в SAM 2. Читайте новую статью по ссылке: https://deepschool-pro.notion.site/Segment-Anything-Model-2-c70a218c4484424d8d3749e383c428be?pvs=4
Опубликован 4 дек.
Consistency models Диффузионные модели сейчас — популярные генераторы в различных областях, включая генерацию изображений, видео, музыки и многого другого. Однако в отличие от тех же GANs-моделей, диффузионные обычно требуют запуска большого количества forward-ов, что существенно замедляет генерацию. Мы с вами уже рассмотрели несколько способов ускорения диффузионных моделей за счёт уменьшения количества шагов (InstaFlow, Дистилляция диффузии: часть 1,часть 2). А сегодня мы познакомимся с ещё одним популярным методом для ускорения — Consistency models. Основная идея метода — обучение модели, обладающей свойством self-consistency. Это модель, которая переводит различные точки траектории диффузионного процесса в одну: f(x, t) = f(x1, t1). Обучив такую модель, мы получаем генератор, который сможет теперь работать как за один, так и за несколько шагов. Аналогичную модель можно построить уже для латентного пространства — так мы получим Latent consistency models. Об основных моментах, связанных с данными моделями (особенностях их обучения, результатах в картинках и метриках), мы и поговорили в новой статье: https://deepschool-pro.notion.site/Consistency-models-93c3794b38034d558208660b732e5377?pvs=4
Опубликован 26 нояб.
Подкаст «Под капотом». Агенты и инструменты Мы приглашаем в подкаст экспертов, чтобы понять, как работают сложные системы изнутри. В этом выпуске мы поговорили с Ильей Димовым, Senior NLP-инженером, о том, как сделать идеальную LLM под свои нужды и как они устроены внутри. В этом выпуске мы узнаем: - почему не так просто сделать из LLM друга, который будет более «живым», чем ChatGPT - как научить LLM видеть и слышать - кто такие агенты и в чём их главная проблема - зачем LLM нужны инструменты - и какие проблемы возникнут, если неправильно выбрать модель под задачу Смотрите выпуск по ссылке! https://youtu.be/4uP7hbCbUjA
Опубликован 25 нояб.
«LLM LLM LLM» Все про них говорят, но мало кто умеет их готовить. Если вы хотите научиться использовать LLM правильно, переняв знания из первых уст от инженеров с опытом тюнинга, элаймента, ускорения, деплоя, создания RAG, агентов, тулов и вообще проектов…
Опубликован 23 нояб.
Почему RL — это сложно? И как Decision Transformer меняет правила игры Обучение с подкреплением (RL) часто звучит как магия: агент учится решать задачи через взаимодействие с окружающей средой. Тыкнул сюда, получил минус балл, постараюсь больше так не делать. Тыкнул сюда, получил плюс балл — о, повторю! Но в реальности всё сложнее. Представьте робота, которому нужно научиться управлять автомобилем. Для обучения требуется симулятор, который моделирует дорожные условия. Создать его — задача не из лёгких: это дорого, долго, а иногда просто невозможно. Более того, ошибки агента в симуляторе могут не просто «остаться в игре», но привести к серьёзным последствиям, если перенести их в реальный мир. Допустим, вы хотите обучить робота доставлять посылки. Если он учится в реальном мире, то каждое «неудачное» действие — это разбитый аппарат. А симуляторы часто слишком далеки от реальности, и агент начинает пользоваться их несовершенствами, что делает результаты обучения неприменимыми. Альтернативный способ для создания умных агентов: агент учится воспроизводить траектории, созданные человеком. Проблема в том, что он может лишь копировать, но не создавать новые стратегии для достижения лучших результатов. RL, наоборот, строит стратегии сам, но упирается в проблему сложности и дороговизны. Decision Transformer (DT) как раз призван решить эту проблему, генерируя на основе имеющихся данных новые стратегии. Он использует идеи RL и переформулирует проблему RL как задачу генерации последовательности. Проще говоря, вместо «учимся через ошибки», DT говорит: «Вот данные о прошлом опыте, вот цель в виде суммы будущих наград — давайте сгенерируем траекторию, которая достигнет цель». И это совершенно новый способ решения задач по управлению роботами. Подробнее о нём мы рассказали в новой статье: https://deepschool-pro.notion.site/Decision-Transformer-92feae6bd93d42da997cd44653f92a74?pvs=4