Post content
Training superhuman coding models at Cursor Случайно наткнулся на видео, где ребята из Cursor обсуждают всякое разное про LLM. Обычно в подобных подкастах все высказывания очень поверхносные, чтобы случайно не выдать каких-нибудь секретов. А тут на удивление упомянули довольно много технических деталей. Краткий список затронутых тем: - Как делать RL, когда нет одного правильного ответа? - Что делать, если вероятность получить "правильный" ответ очень маленькая? - Как сделать, чтобы модель могла ориентироваться в большом проекте? - Как поддерживать long context? - Как делать credit assignment для memory tool? - Как cursor может обучаться на пользовательских данных. - Почему плохо смотреть на лайки/дизлайки ответов. - Какая инфра нужна для больших RL тренировок. Судя по количеству просмотров, если сам этим не занимаешься, то смотреть не очень интересно. Но мне понравилось!