Post #1579

@ai_volution

ИИволюция 👾

Просмотры4,019Количество просмотров

Опубликован24 нояб.24.11.2025, 06:22

Содержимое поста

Содержимое

LLM консилиум Андрей Карпаты на выходных завайбкодил веб апп с LLM консилиумом. Это веб приложение которое выглядит как условный ChatGPT, только каждый ваш запрос/вопрос одновременно разбирают сразу несколько топовых моделей вроде GPT 5.1, Gemini 3 Pro, Claude Sonnet 4.5 и Grok 4. Сначала все модели отвечают по отдельности, потом видят анонимные ответы друг друга, оценивают и ранжируют их, а финальный ответ собирает председатель LLM с учетом всей этой мини дискуссии. Карпаты рассказывает, что модели в консилиуме часто честно признают, что ответ другой модели лучше их собственного, и это делает формат полезным для оценки качества моделей. Когда Карпаты читал книгу и обсуждал главы этой книги с консилиумом, все модели стабильно ставили GPT 5.1 на первое место как самую глубокую и содержательную, а Claude почти всегда на последнее. Gemini и Grok оказывались между ними. При этом сам Карпаты не полностью согласен с таким рейтингом. По его ощущениям GPT 5.1 слишком многословный, Gemini в своих ответах более компактный и структурированный, а Claude в этих задачах чересчур краткий. Код уже лежит на GitHub, можно развернуть у себя и посмотреть как модели спорят за право дать лучший ответ.