Post content
Немного инфы про то, какие материалы у меня для вас уже есть: 1. Мой LinkedIn. Несколько раз в месяц пишу туда разборы статей, которые мне понравились, плюс иногда что-то от себя. Добавляйтесь в контакты 🙂 2. Блогпост на хабре про модель Prod2Vec. Модель, которую я делал в Озоне, чтобы смешивать три сущности (картинка, название, атрибуты) товара в один вектор. 3. Выступление на митапе Aliexpress, где я как раз рассказывал про Prod2Vec. 4. Блогпост на хабре про Real-time matching. Более инженерная статья про наш длительный переход из оффлайн подхода в онлайн в задаче матчинга товаров (тоже в Озоне). 5. Статья со времен работы в лаборатории Huawei, где я занимался обучением с подкреплением. Мы изучали on-policy алгоритмы в разрезе снижения дисперсии и даже придумали свой. Кстати, PPO, который в основном используется в RLHF, — тоже on-policy. 6. Выступление на Datafest 2023 с воркшопом по LLM + RLHF. 7. Блогпост на хабре про LLM агентов. 8. Блогпост от нашей команды в Nebius, где мы рассказываем про критиков (Verifiers) для SWE-агентов Список будет пополняться.