TGTGInsighttelegram intelligenceLIVE / telegram public index
Back to channels
AI[ex]Time avatar

TGINSIGHT CHAT

AI[ex]Time

@AIexTime

Technologies

LLM & Agents research: environments, post-train, RL, inference @alex_golubev13

Subscribers2,770Current channel subscribers
Tracked posts165Indexed post count
Recent reach13,950Sum of recent post views
Recent posts

Recent posts

Page 14 of 14 · 165 posts

Posted Sep 2

Должен ли ML инженер понимать принцип работы процессов/потоков в питоне? Очень часто в обсуждениях вопросов с собеседования ML инженеров слышу споры о том, нужно ли спрашивать про принцип работы питона, в частности про потоки/процессы/GIL и прочее. Разумеется, это зависит от задач, которыми предстоит заниматься в команде. Но вот вам пример, который встречался мне несколько раз в разных компаниях, где за 10 минут можно было получить кратный прирост в скорости: Есть пайплайн на pyspark, который скачивает картинки с помощью user-defined function (udf). udf применяется построчно и параллельность тут достигается только за счет нескольких воркеров. Теперь меняем udf на pandas_udf (обработка идет сразу чанками, pd.Series) и внутри уже скачиваем картинки потоками. Несколько измененных строчек кода и пайплайн работает в ~5-10 раз быстрее. Пайплайн на спарке можно заменить и на обычный питон скрипт, смысл останется тем же.

731 views

Posted Sep 1

Вчера вышла интересная статья YaRN про еще один способ увеличения контекста в LLM (точнее в тех моделях, которые используют метод RoPE для позиционного кодирования, например, LLaMa-2) до 64k, 128k токенов. Направление сейчас популярное, ведь такая штука позволяет поместить в контекст среднюю книгу или же иметь очень длинную историю сообщений. В статье графики выглядят впечатляюще и самое крутое, что можно уже брать модельки с hugging face. В отличие от предыдущих работ, где модифицировали только RoPE (Rotary Positional Encodings, по сути это поворот вектора в пространстве на некоторый угол, который зависит от позиции), авторы заметили, что изменения в позиционном кодировании сильно влияют на распределение attention скоров после софтмакса. Поэтому помимо прочего добавили температуру, которой можно это распределение контролировать. Причем сделано это по-хитрому, чтобы не менять код самого attention и соответственно использовать все существующие оптимизации. Как и другие методы, YaRN требует дообучения на данных с длинным контекстом, хотя и в небольшом количестве (~0.1% от данных претрейна). Единственный вопрос — сколько памяти требуется для инференса таких моделек.

6,280 views

Posted Aug 31

Отличная статья, где автор в деталях разбирает, на что уходит время во время инференса трансформеров. Если хочется понять все подробно, то можно на несколько часов уйти с головой. Рассказ строится вокруг Flops vs Memory boundness (которые зависят от модели, железа, формата инференса) и ситуаций, когда инференс упирается либо в одно, либо в другое. Автор разбирает разные ситуации (например, использование KV cache, Tensor/Pipeline parallelism, разный размер batch_size) и показывает, как и что меняется в зависимости от разных настроек. Плюс к этому дает некоторый фреймворк, по которому можно прикинуть суммарную latency LLM. Сказал бы, что статья далеко не простая, но если вы занимаетесь деплоем LLM, то советую посмотреть. В конце есть вопросы, чтобы проверить себя 💃

1,180 views

Posted Aug 30

Пока писал пост на тему “Должен ли ML инженер знать, как работают потоки и процессы в питоне”, решил посмотреть на статистику LinkedIn постов за все время (регулярно я начал выкладывать туда 5 месяцев назад). Для сравнения, в среднем каждый пост набирает сейчас ~2-4к просмотров, но стоило добавить в название Interview questions on transformers, и это число выросло до …50к. Итак: 1. Interview questions on transformers. 2. Обзор на статью про архитектуру Retentive Network. 3. Top 10 questions from ML interviews.

1,390 views

Posted Aug 29

Немного инфы про то, какие материалы у меня для вас уже есть: 1. Мой LinkedIn. Несколько раз в месяц пишу туда разборы статей, которые мне понравились, плюс иногда что-то от себя. Добавляйтесь в контакты 🙂 2. Блогпост на хабре про модель Prod2Vec. Модель, которую я делал в Озоне, чтобы смешивать три сущности (картинка, название, атрибуты) товара в один вектор. 3. Выступление на митапе Aliexpress, где я как раз рассказывал про Prod2Vec. 4. Блогпост на хабре про Real-time matching. Более инженерная статья про наш длительный переход из оффлайн подхода в онлайн в задаче матчинга товаров (тоже в Озоне). 5. Статья со времен работы в лаборатории Huawei, где я занимался обучением с подкреплением. Мы изучали on-policy алгоритмы в разрезе снижения дисперсии и даже придумали свой. Кстати, PPO, который в основном используется в RLHF, — тоже on-policy. 6. Выступление на Datafest 2023 с воркшопом по LLM + RLHF. 7. Блогпост на хабре про LLM агентов. 8. Блогпост от нашей команды в Nebius, где мы рассказываем про критиков (Verifiers) для SWE-агентов Список будет пополняться.

2,009 views

Posted Aug 29

AI[ex]Time pinned «Всем привет! Меня зовут Саша, я Research Lead в Nebius. Мы занимаемся LLM, RL, Agents и другими связанными вещами. До этого работал инженером и лидом; занимался проектами в MedTech, банкинге, E-commerce, SaaS E-commerce, побыл немного в академии и на текущей…»

views

Posted Aug 29

Всем привет! Меня зовут Саша, я Research Lead в Nebius. Мы занимаемся LLM, RL, Agents и другими связанными вещами. До этого работал инженером и лидом; занимался проектами в MedTech, банкинге, E-commerce, SaaS E-commerce, побыл немного в академии и на текущей момент вернулся опять к ресерчу. В последнее время потребляемую информацию/мысли/опыт все больше и больше хочется не только заносить в базу знаний, но и делиться ей с другими. Этот ТГ канал – попытка выносить что-то интересное на обсуждение или же делиться полезной информацией с читателями. В основном я буду писать про машинное обучение: разборы статей, проекты из опыта, интересные и сложные задачи, которые приходилось решать, частые ошибки, мысли по будущему ML и т.д. В силу текущей работы в основном фокус сейчас сконцентрирован на LLM, SWE agents, RL environments, но будет и много чего еще. Ну и конечно буду писать просто про то, что мне интересно вне работы: спорт, видеоигры, книги и фильмы, шахматы, тайм-менеджмент и лайфхаки к продуктивности, путешествия, и прочее. Добро пожаловать на борт!

2,360 views

Posted Aug 29

Channel photo updated

views

Posted Aug 29

Channel created

views
12•••10•••121314
PreviousPage 14 of 14Next