TGTGInsightаналитика telegramLIVE / telegram public index
← AI-Driven Development. Родион Мостовой
AI-Driven Development. Родион Мостовой avatar

TGINSIGHT POST

Post #12

@ai_driven

AI-Driven Development. Родион Мостовой

Просмотры646Количество просмотров
Опубликован9 мая09.05.2024, 06:03
Содержимое поста

Содержимое

А что у нас сейчас с актуальными модельками для кодинга? Наткнулся на один интересный бенчмарк моделек для кодинга под названием LiveCodeBench. На этот раз энтузиасты собрали в кучу задачки с LeetCode, CodeForces и AtCoder и дали их порешать LLM'кам. И вот тут интересное - есть мнение, что бенчмарки, в которых тестовые данные публично известны, не очень репрезентативны. Создатели бенчмарка тоже это понимали, поэтому прямо в UI добавили фильтр на задачи по дате (т. е. можно выбрать наиболее "свежие" задачи, которые большинство LLM просто физически не могли знать). И тем не менее, из результатов этого бенчмарка мы видим, что, например, в категории Hard на всех задачах лучший показатель у Claude Opus (и это всего 4.9!). Еще интересно, что последняя версия GPT-4 Turbo решает примерно в 2 раза больше задачек уровня Medium, чем Claude Opus. Опенсорсная и мелкая CodeQwen15-7B-Chat при этом показывает результаты на равне с платной Claude Haiku (а на задачах Medium и Hard даже обгоняет их и может сравниться с Claude Opus). Ссылка на бенчмарк: https://livecodebench.github.io/leaderboard.html Напоминаю, что 7B модельки (в кванте Q8 и меньше) легко запускаются на макбуке с M процессорами и 18+ GB shared memory, либо просто на мощных ноутах на винде (даже с интегрированной GPU). А запустить это проще всего в LM Studio. Еще, из интересного: только что IBM выпустила свои новые модели для кодинга под названием Granite, у них тоже впечатляющие результаты и их уже даже можно погонять самостоятельно в LM Studio. В LiveCodeBench этих моделей пока нет, но я уже отправил им Issue, чтоб добавили.