TGTGInsighttelegram intelligenceLIVE / telegram public index
Back to channels
AI[ex]Time avatar

TGINSIGHT CHAT

AI[ex]Time

@AIexTime

Technologies

LLM & Agents research: environments, post-train, RL, inference @alex_golubev13

Subscribers2,770Current channel subscribers
Tracked posts165Indexed post count
Recent reach7,716Sum of recent post views
Recent posts

Recent posts

Tag: #interview_questions · 4 posts

当前筛选 #interview_questions清除筛选

Posted May 11

Недавно из блога Lilian Weng (всем рекомендую, кто не знал) про RL перешел на сайт Jeremy Kun-а и обнаружил, что там есть довольно много интересных заметок. Например, одна из них посвящена вопросу, про который я хотел написать в рамках #interview_questions. Вопрос: у вас есть честная монетка (вероятность решки 1/2). Как только с ее помощью смоделировать подбрасывание нечестной монетки с любой заданной вероятностью решки p. Нужно написать функцию, принимающую на вход p и возвращающую 0/1 c этой вероятностью. Загадка, зачем спрашивать такое на собеседованиях, но решение мне кажется довольно красивым.

2,070 views

Posted Feb 7

Давно не было рубрики интересных вопросов, которые любят спрашивать на собесах, на этот раз мне рассказали про такой: Как и почему в процессе обучения DPO меняется правдоподобие (растет/падает/не меняется) у y_chosen и y_rejected? Недавно, залипая в метрики обучения, я и сам задался таким вопросом. Ответ в комментариях. #interview_questions

2,620 views

Posted Jan 5

Продолжаем серию #interview_questions. Напомню, под этим тегом я пытаюсь собрать не самые популярные вопросы с собеседований, которые часто вызывают трудности. В этот раз вопрос по теме статистики и проверки гипотез, который встретился на собеседовании в одну большую компанию, занимающуюся объявлениями. Вопрос: при условии, что H0 верна, какое распределение будет у p_value? Ответ: Равномерное. Вот хорошее чисто математическое объяснение https://statproofbook.github.io/P/pval-h0.html. Заключается оно в том, при H0 можно показать, что для любого 'a' P(p_val < a) = a (отсюда как раз и вытекает возможность устанавливать ограничения на ошибку первого рода в привычном виде по типу "сравни p_value с 0.05"). Единственный вариант, когда возможно такое равенство — когда p_value имеет равномерное распределение на отрезке [0, 1]. Недавно появилась мысль собрать небольшой список из вопросов подобного рода, например, 100 вопросов по темам ML, NLP, CV, DA в формате вопрос/ответ/доп. ссылки. Было бы такое интересно?

2,140 views

Posted Oct 30

Рассказывали мне тут про редкие вопросы с интервью, с которыми мало кто справляется, вспомнил, что и сам на такой натыкался в прошлом, поделюсь с вами. В целом есть идея изредка выносить что-то подобное с тегом #interview_questions, дайте знать, если полезно. Вопрос: мы решаем задачу классификации и до софтмакса получаем вектор логитов, скажем [0.81, 3, 10, 15, 90]. В операции софтмакса есть возведение экспоненты в степень, то есть в данном случае нужно будет посчитать e^90. Это очевидно приведет к переполнению любого используемого типа, а в некоторых имплементациях получим значение inf -> 1.0 после софтмакса. Что делать в этом случае? Ответ: До софтмакса нужно вычесть максимум из логитов, то есть в данном примере 90. Операция вычитания числа из всех элементов вектора не поменяет результат софтмакса (можете проделать ее на бумажке и убедиться) или просто прикинуть в уме, что e^max(logit) сократится из-за того, что он присутствует и в числителе, и в знаменателе. Экспоненту же от большого отрицательного числа посчитать можно, значение будет близко к 0.

886 views