AI[ex]Time

@AIexTime

Technologies

LLM & Agents research: environments, post-train, RL, inference @alex_golubev13

Subscribers2,770Current channel subscribers

Tracked posts165Indexed post count

Recent reach13,950Sum of recent post views

Recent posts

Page 14 of 14 · 165 posts

Posted Sep 2

View

Должен ли ML инженер понимать принцип работы процессов/потоков в питоне? Очень часто в обсуждениях вопросов с собеседования ML инженеров слышу споры о том, нужно ли спрашивать про принцип работы питона, в частности про потоки/процессы/GIL и прочее. Разумеется, это зависит от задач, которыми предстоит заниматься в команде. Но вот вам пример, который встречался мне несколько раз в разных компаниях, где за 10 минут можно было получить кратный прирост в скорости: Есть пайплайн на pyspark, который скачивает картинки с помощью user-defined function (udf). udf применяется построчно и параллельность тут достигается только за счет нескольких воркеров. Теперь меняем udf на pandas_udf (обработка идет сразу чанками, pd.Series) и внутри уже скачиваем картинки потоками. Несколько измененных строчек кода и пайплайн работает в ~5-10 раз быстрее. Пайплайн на спарке можно заменить и на обычный питон скрипт, смысл останется тем же.

731 views

Posted Sep 1

View

Вчера вышла интересная статья YaRN про еще один способ увеличения контекста в LLM (точнее в тех моделях, которые используют метод RoPE для позиционного кодирования, например, LLaMa-2) до 64k, 128k токенов. Направление сейчас популярное, ведь такая штука позволяет поместить в контекст среднюю книгу или же иметь очень длинную историю сообщений. В статье графики выглядят впечатляюще и самое крутое, что можно уже брать модельки с hugging face. В отличие от предыдущих работ, где модифицировали только RoPE (Rotary Positional Encodings, по сути это поворот вектора в пространстве на некоторый угол, который зависит от позиции), авторы заметили, что изменения в позиционном кодировании сильно влияют на распределение attention скоров после софтмакса. Поэтому помимо прочего добавили температуру, которой можно это распределение контролировать. Причем сделано это по-хитрому, чтобы не менять код самого attention и соответственно использовать все существующие оптимизации. Как и другие методы, YaRN требует дообучения на данных с длинным контекстом, хотя и в небольшом количестве (~0.1% от данных претрейна). Единственный вопрос — сколько памяти требуется для инференса таких моделек.

6,280 views

Posted Aug 31

View

Отличная статья, где автор в деталях разбирает, на что уходит время во время инференса трансформеров. Если хочется понять все подробно, то можно на несколько часов уйти с головой. Рассказ строится вокруг Flops vs Memory boundness (которые зависят от модели, железа, формата инференса) и ситуаций, когда инференс упирается либо в одно, либо в другое. Автор разбирает разные ситуации (например, использование KV cache, Tensor/Pipeline parallelism, разный размер batch_size) и показывает, как и что меняется в зависимости от разных настроек. Плюс к этому дает некоторый фреймворк, по которому можно прикинуть суммарную latency LLM. Сказал бы, что статья далеко не простая, но если вы занимаетесь деплоем LLM, то советую посмотреть. В конце есть вопросы, чтобы проверить себя 💃

1,180 views

Posted Aug 30

View

Пока писал пост на тему “Должен ли ML инженер знать, как работают потоки и процессы в питоне”, решил посмотреть на статистику LinkedIn постов за все время (регулярно я начал выкладывать туда 5 месяцев назад). Для сравнения, в среднем каждый пост набирает сейчас ~2-4к просмотров, но стоило добавить в название Interview questions on transformers, и это число выросло до …50к. Итак: 1. Interview questions on transformers. 2. Обзор на статью про архитектуру Retentive Network. 3. Top 10 questions from ML interviews.

1,390 views

Posted Aug 29

View

Немного инфы про то, какие материалы у меня для вас уже есть: 1. Мой LinkedIn. Несколько раз в месяц пишу туда разборы статей, которые мне понравились, плюс иногда что-то от себя. Добавляйтесь в контакты 🙂 2. Блогпост на хабре про модель Prod2Vec. Модель, которую я делал в Озоне, чтобы смешивать три сущности (картинка, название, атрибуты) товара в один вектор. 3. Выступление на митапе Aliexpress, где я как раз рассказывал про Prod2Vec. 4. Блогпост на хабре про Real-time matching. Более инженерная статья про наш длительный переход из оффлайн подхода в онлайн в задаче матчинга товаров (тоже в Озоне). 5. Статья со времен работы в лаборатории Huawei, где я занимался обучением с подкреплением. Мы изучали on-policy алгоритмы в разрезе снижения дисперсии и даже придумали свой. Кстати, PPO, который в основном используется в RLHF, — тоже on-policy. 6. Выступление на Datafest 2023 с воркшопом по LLM + RLHF. 7. Блогпост на хабре про LLM агентов. 8. Блогпост от нашей команды в Nebius, где мы рассказываем про критиков (Verifiers) для SWE-агентов Список будет пополняться.

2,009 views

Posted Aug 29

View

AI[ex]Time pinned «Всем привет! Меня зовут Саша, я Research Lead в Nebius. Мы занимаемся LLM, RL, Agents и другими связанными вещами. До этого работал инженером и лидом; занимался проектами в MedTech, банкинге, E-commerce, SaaS E-commerce, побыл немного в академии и на текущей…»

— views

Posted Aug 29

View

Всем привет! Меня зовут Саша, я Research Lead в Nebius. Мы занимаемся LLM, RL, Agents и другими связанными вещами. До этого работал инженером и лидом; занимался проектами в MedTech, банкинге, E-commerce, SaaS E-commerce, побыл немного в академии и на текущей момент вернулся опять к ресерчу. В последнее время потребляемую информацию/мысли/опыт все больше и больше хочется не только заносить в базу знаний, но и делиться ей с другими. Этот ТГ канал – попытка выносить что-то интересное на обсуждение или же делиться полезной информацией с читателями. В основном я буду писать про машинное обучение: разборы статей, проекты из опыта, интересные и сложные задачи, которые приходилось решать, частые ошибки, мысли по будущему ML и т.д. В силу текущей работы в основном фокус сейчас сконцентрирован на LLM, SWE agents, RL environments, но будет и много чего еще. Ну и конечно буду писать просто про то, что мне интересно вне работы: спорт, видеоигры, книги и фильмы, шахматы, тайм-менеджмент и лайфхаки к продуктивности, путешествия, и прочее. Добро пожаловать на борт!

2,360 views

Posted Aug 29

View

Channel photo updated

— views

Posted Aug 29

View

Channel created

— views

1 2•••10•••12 1314

← PreviousPage 14 of 14Next →