Содержимое
Code completion GPT-4o для Copilot и 8b(q) для Yandex Code Assistant Наткнулся тут на доклад Яндекса про их Code Assistant, в котором руководитель ML лаборатории рассказывает о том, как они строили свой аналог GH Copilot и какими метриками мерили эффективность. Спойлер: Acceptance rate (как часто юзеры тыкают на Tab при появлении подсказок) оказался не очень хорошей метрикой, поэтому они придумали для такой оценки более хитрую формулу, учитывающую длину подсказки. Интересно, что исходя из его рассказала, модельку свою они тренировали только на префиксе и постфиксе, обучая ее заполнять середину (fill in the middle) - непонятно, учитывает ли их система доп. контекст в виде зависимых code symbols, или хотя бы файлы рядом. Еще, из интересного - моделька там под капотом квантизованная 8b (почему-то решили свою модель тренировать), а всего 8b из-за того, что нужен низкий Latency, а мощности на инференс ограничены. Если меня читают люди из Яндекса, расскажите, почему решили свою модельку обучать, а не взяли что-то готовое опенсорсное? А для GitHub Copilot, кстати, стала доступа моделька "gpt-4o Copilot" для Code Completion - с учетом того, что ранее для подсказок использовалась gpt-3.5-turbo, качество подсказок теперь должно вырасти в разы. В целом, люблю и использую code completion, но из-за своей примитивности он довольно часто больше мешал, чем помогал - надеюсь, теперь ситуация изменится. Доступна новая моделька как для IDE от JetBrains, так и в VSCode, но чтобы заработало нужно явно ее выбрать в настройках. Что еще интересного произошло? Исследователи из Калифорнийского университета разработали S* — методику гибридного масштабирования test-time compute для генерации кода. S* сочетает параллельную генерацию вариантов кода с их последовательной доработкой на основе выполнения тестов и адаптивный отбор для выбора наилучшего решения. Метод позволил модели Qwen2.5-3B превзойти GPT-4o-mini, а GPT-4o-mini с S* обошел o1-preview на 3,7% в тесте LiveCodeBench. Кроме того, DeepSeek-R1-Distill-Qwen-32B с S* достиг 85,7%, приблизившись к o1-high (88,5%). Похоже, что все идет к тому, что скоро мы все-таки увидим маленькие 8b модели, достигающие уровня gpt-4 в кодинге. Илон Маск & Co, наконец, выпустили свою великую и ужасную Grok-3. В кодинге thinking версия модели оказалась очень хороша, на уровне о1и o3-mini-high. Да и в целом люди модель хвалят. И у вас как впечатления от новой Grok? OpenAI обновили свою GPT-4o до chatgpt-4o-latest-2025-01-29, добавив аж +10 пунктов в кодинге (по LiveBench, было 51, стало 61). Кстати, совсем скоро обещают выпустить новенькую GPT-4.5, а потом и GPT-5. Алхимики исследователи из Microsoft целых 17 лет что-то делали и в итоге, по их заявлениям, придумали надежный способ использования квантовых компьютеров в проде. Новость сложная, малопонятная, но преподносят Microsoft все как очередную технологическую революцию. Вот интро-ролик с переводом на русский. Выглядит это все многообещающе, но уже есть и критика. В общем, будем наблюдать.