TGINSIGHT CHAT
DeepSchool
@deep_school
ОбразованиеЭто канал школы deepschool.ru. Здесь мы будем: - напоминать вам теорию ML/DL в виде коротких постов, - задавать вопросы с собеседований, - рассказывать про полезные фреймворки - и делиться советами, которые помогут вам в работе. @deepschool_support
Последние посты
Стр. 3 из 45 · 530 постов
Опубликован 12 февр.
Осталось 3 часа до лекции по LLM Сегодня с Дмитрием Калашниковым разберёмся в актуальных моделях и их свойствах, типах задач, главных проблемах и их решениях! На лекции вы узнаете: — какие модели сейчас лучше выбрать и чем они отличаются — как сравнить модели с помощью бенчмарков — какие есть варианты применения: self-host против API, стоимость и ресурсы, основные провайдеры — для каких задач LLM применяются в продуктах и какой уровень качества реально можно ожидать — главные «болячки» ванильных решений и актуальные советы по их лечению А ещё расскажем про курс «LLM», где вы узнаете, как устроены современные LLM, как их обучать, запускать и оптимизировать — всё под кураторством опытных инженеров. Всем участникам лекции мы подарим скидки на обучение 🎁 🕕Регистрируйтесь и приходите сегодня в 19:00 МСК
Опубликован 11 февр.
Мок-интервью по компьютерному зрению Проходить собеседования в DS — отдельный навык, который надо тренировать. Один из вариантов подготовки к ним — просмотр/прохождение мок-интервью. В новом видео записали мок-интервью на позицию CV-инженера, где решили задачу по применению CV для анализа предметов искусства 🖼 В интервью разобрали: - подходы ко сбору данных и разметке - возможный pipeline, corner cases и потенциальные улучшения - оценку качества предложенного решения и его компонентов А в конце кандидат получил развёрнутый фидбек по каждому из этапов Смотрите видео по ссылке!👀 Приходите на наш курс CV Rocket, если хотите научиться решать сложные задачи компьютерного зрения. Ближайший поток стартует 10 марта, а до 1 марта вы можете присоединиться со скидкой до 20%! Изучайте подробности на сайте и записывайтесь в лист ожидания! 🪔DeepSchool
Опубликован 9 февр.
Карта LLM: как выбирать модели, проверять качество и улучшать результаты В этот четверг, 12 февраля, мы проведём открытую лекцию, на которой ответим на популярные вопросы по LLM. Чем отличаются модели? Надо ли доучивать модель? Хостить или ходить по API? На что можно рассчитывать при построении агента или RAG-системы? Почему у кого-то работают RAG и агенты, а кто-то в них разочаровался? За полтора часа дадим актуальный срез индустрии вокруг LLM: — актуальные модели и их свойства — бенчмарки — self-host VS API — типы задач — главные «болячки» ванильных решений — и актуальные советы по их лечению Спикер — Дмитрий Калашников, NLP Team Lead в Яндексе🔥 В конце расскажем про курс «LLM», где объясняем теорию LLM, учим дообучению, элайменту, построению RAG, агентских-систем и деплою — всё под кураторством опытных инженеров. Всем участникам лекции мы подарим скидки на обучение 🎁 📅 Встречаемся в четверг, 12 февраля в 19:00 МСК! Регистрируйтесь по ссылке и приходите на лекцию!
Опубликован 6 февр.
FlashAttention v1 Хотя пиковая вычислительная мощность современных GPU измеряется триллионами FLOPS, на практике производительность на многих задачах глубокого обучения ограничивается скоростью доступа к памяти. На GPU есть иерархия памяти: регистры и shared memory (SRAM) очень быстрые, но их объём крайне мал (менее 0.1% от объёма VRAM), глобальная память (VRAM) — объёмная, но значительно медленнее. Эффективность алгоритма на GPU определяется тем, насколько успешно он минимизирует обращения к VRAM, удерживая промежуточные данные в SRAM. Во многих стандартных реализациях нейросетевых операций вычисления оказываются memory-bound, классический пример — attention в трансформерах. Проблема базового attention Scaled Dot-Product Attention вычисляется по формуле 1 (см. картинку). На практике это означает явное вычисление и хранение матрицы QKᵀ размером n x n. При росте длины последовательности это приводит к квадратичному росту памяти и обращений к медленной VRAM-памяти. Attention остаётся memory-bound даже при использовании библиотеки cuBLAS. Масштабирование по длине контекста упирается не в вычисления, а в пропускную способность памяти. Идея FlashAttention FlashAttention ускоряет вычисление attention без изменения самой формулы расчёта. Ключевая идея — не хранить матрицу QKᵀ целиком в глобальной памяти. Это достигается за счёт двух техник: тайлинга и онлайн-Softmax. Тайлинг (Tiling) Алгоритм разбивает все входные матрицы Q,K,V на блоки, которые поочередно загружаются в быструю SRAM. Каждый блок запросов Q по очереди сопоставляется с блоками K и V. Для каждого такого сочетания прямо в SRAM вычисляется фрагмент внимания, который сразу агрегируется в итоговый результат. Таким образом, не нужно ждать обхода всей последовательности или сохранять промежуточную матрицу QKᵀ. Финальный attention заполняется постепенно теми данными, которые в данный момент лежат в быстрой памяти. Подробнее про математику tiling-механизма можно прочитать по ссылке. Онлайн-Softmax Тайлинг в flashattention был бы не так эффективен без онлайн-Softmax. В стандартной реализации для вычисления весов внимания используется формула 2 (см. картинку). По формуле знаменатель представляет собой сумму экспонент по строке длиной N. В классической реализации attention это создает проблему: даже используя тайлинг вычисления, необходимы результаты всех блоков Q,K,V для расчёта Softmax. Это вынуждает снова возвращаться к проблеме сохранения матриц целиком в VRAM. Онлайн-Softmax решает проблему, позволяя обновлять знаменатель и нормализовывать результат по мере подгрузки новых блоков в SRAM, вычисляя результат инкрементально. При обработке каждого нового блока в SRAM алгоритм «на лету» обновляет: • текущий максимум строки; • нормализующую сумму экспонент (знаменатель формулы); • промежуточный результат O — если в новом блоке нашёлся максимум больше предыдущего, алгоритм пересчитывает уже накопленный результат. Это позволяет получить результат, полностью эквивалентный классическому Softmax, при этом матрица QKᵀ вообще не покидает пределов SRAM. Итог FlashAttention показал, что существенное ускорение трансформеров возможно за счёт переосмысления вычислений под архитектуру GPU. Алгоритм снижает потребление памяти с квадратичной до линейной, уменьшает число обращений к медленной памяти VRAM и переводит вычисление attention из memory-bound в compute-bound проблему, когда скорость вычислений ограничена скоростью работы GPU. Про ускорение LLM, дообучение и их деплой рассказываем на курсе LLM. Запишитесь в лист ожидания до 8 февраля, чтобы первыми занять место и получить скидки до 20% 🔥 Автор:Антон Наумов 🪔DeepSchool
Опубликован 1 февр.
DeepSchool Digest⚡ Первый дайджест в 2026 году! 🎄 ClearML Agent: обучение модели в Google Colab — рассказали о компоненте ClearML Agent фреймворка ClearML, который позволяет отправлять задачи в очередь и исполнять их на удалённых машинах Ruff: современный и быстрый linter + formatter для Python — пример внедрения в проект линтера, написанного на Rust Практические советы по работе с Docker — собрали советы по работе Docker от практикующих инженеров. How to: уменьшить Docker-образ — показали на практике, как уменьшить размер Docker-образа и ускорить его сборку Алгоритмы подбора гиперпараметров для моделей — разобрали несколько алгоритмов подбора гиперпараметров: от базовых Grid Search и Random Search, до продвинутых Tree-structured Parzen Estimator и Covariance Matrix Adaptation Evolution Strategy Агенты vs чат-боты — рассказали, чем отличаются эти понятия, как устроена архитектура агента и как он работает.
Опубликован 30 янв.
Агенты vs чат-боты Технологии вокруг LLM развиваются быстро, и некоторые термины могут вызывать путаницу, как, например, «агенты» и «чат-боты». В новой статье рассказываем, чем отличаются эти понятия, как устроена архитектура агента и как он работает. Читайте новую статью по ссылке! Разобраться с агентами и LLM можно на нашем курсе, который стартует 19 февраля. Запишитесь в лист ожидания до 8 февраля, чтобы первыми занять место и получить скидки до 20% 🔥
Опубликован 26 янв.
Как устроены LLM и как с ними работать 19 февраля стартует новый поток нашего курса по LLM для ML/DL-инженеров, программы про полный цикл работы с большими языковыми моделями. Если хотите разобраться, как устроены современные LLM, как их обучать, запускать и оптимизировать — записывайтесь на обучение! Вы разберётесь в теории, научитесь дообучению, элайменту, построению RAG, агентских систем и инференсу LLM. Запишитесь в лист ожидания до 8 февраля, чтобы первыми занять место и получить скидки до 20%. Изучайте подробности о программе и спикерах и оставляйте заявку на новый поток! По всем вопросам пишите нам в поддержку @deepschool_support
Опубликован 23 янв.
Научитесь создавать и деплоить DL-сервисы Вчера на лекции мы представили новый поток курса «DLOps» и приглашаем на него вас! Мы обновили программу и добавили две новые лекции про Kubernetes: вы освоите основы k8s, которые нужны разработчику, и задеплоите своё демо-приложение с моделью при помощи Helm. Кроме этого на курсе вы научитесь: ➖писать код для обучения моделей «по фэншую» ➖конвертировать модели в JIT и ONNX ➖версионировать данные, эксперименты и модели ➖автоматизировать рутину и быть уверенным в своём коде ➖писать веб-сервисы на FastAPI ➖собирать приложения с помощью Docker ➖сервить модели с NVIDIA Triton ➖тестировать веб-сервисы и подменять зависимости при помощи DI ➖настраивать CI/CD и деплоить веб-сервисы на удалённые машины «по кнопке» при помощи ansible и k8s ➖мониторить веб-приложения при помощи Prometheus и Grafana После каждой лекции вас ждет домашнее задание, а в конце курса — проект, где можно применить все полученные навыки. На протяжении всего обучения вас будут поддерживать опытные инженеры: ревьюить ваш код, отвечать на вопросы во время лекций, на Q&A-сессиях и в чате. 🚀 Курс стартует 28 января, а до 27 января вы можете записаться со скидкой 5%! Изучайте подробности о программе и спикерах и присоединяйтесь к обучению. Если возникают вопросы, пишите нам в поддержку в Телеграм!
Опубликован 22 янв.
Осталось 3 часа до лекции по DLOps! Сегодня Дмитрий Раков и Тимур Фатыхов покажут, как выглядит путь модели после обучения! На лекции вы узнаете: - когда стоит использовать Jupyter-ноутбуки, а когда нет - как подготовить репозиторий моделинга - варианты конвертации модели - как обернуть инференс в http-приложение - чем помогает Model Serving - как деплоят приложения и автоматизируют этот процесс А в конце представим курс «DLOps» и подарим скидки на обучение✨ Регистрируйтесь и приходите сегодня в 18:00 МСК!
Опубликован 20 янв.
Алгоритмы подбора гиперпараметров для моделей Настройка гиперпараметров — надёжный метод повысить метрики обучаемой модели. Для этой задачи разработано множество алгоритмов, каждый из которых использует свою стратегию поиска гиперпараметров. О нескольких популярных алгоритмах сегодня и расскажем.🕵🏻♂️ В новой статье: - напоминаем базу — принцип работы алгоритмов Grid Search и Random Search - рассказываем, как улучшить Random Search при помощи Sobol/Halton sequences - разбираем два основных алгоритма из Optuna: Tree-structured Parzen Estimator (TPE) и Covariance Matrix Adaptation Evolution Strategy (CMA-ES) А ещё в конце статьи оставили таблицу-шпаргалку со сценариями использования разобранных алгоритмов. Читайте новую статью по ссылке!👈 🪔DeepSchool
Опубликован 19 янв.
Инструменты для деплоя DL-моделей DL-инженеру уже недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать запросам индустрии. Важно уметь доводить их до пользователей. В этот четверг на открытой онлайн-лекции мы покажем, как выглядит путь модели после обучения! На лекции вы узнаете: - когда стоит использовать Jupyter-ноутбуки, а когда нет - как подготовить репозиторий моделинга - варианты конвертации модели - как обернуть инференс в http-приложение - чем помогает Model Serving - как деплоят приложения и автоматизируют этот процесс А в конце представим курс «DLOps». Это программа про то, как ML/DL-инженеру писать поддерживаемый код вне Jupyter-ноутбуков, оборачивать модели в сервисы, версионировать эксперименты и данные, настраивать CI/CD и автоматизировать рутину. Всем участникам лекции подарим скидки на обучение!🔥 🙋♂️Спикеры лекции: — Дмитрий Раков — руководитель ML в НИИАС, делает perception-алгоритмы для беспилотных поездов — Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer KoronaPay ⏰Дата и время: 22 января, чт, 18:00 МСК Регистрируйтесь по ссылке и до встречи в четверг вечером!
Опубликован 14 янв.
How to: уменьшить Docker-образ Docker помогает разработчику сохранить время и нервные клетки — упростить деплой приложения и сделать окружение воспроизводимым. В течение проекта большинство инженеров, работающих с Docker, сталкиваются с проблемой роста размера образа и времени его сборки. В новом видео показываем, как уменьшить размер Docker-образа и ускорить его сборку. Смотрите по ссылке: https://youtu.be/QwOI46dF1rw👀 Практики из видео — часть инженерного подхода, которому мы учим на курсе «DLOps»: от написания сервисов и их контейнеризации до CI/CD, мониторинга и поддержки ML-сервисов. Старт 28 января. Оставьте заявку до 18 января, чтобы записаться со скидкой 20%! ⚡️