Post content
Кожаным мешкам приготовиться: Ml приблизились по качеству работы к отраслевым экспертам При этом Ml могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики Он измеряет эффективность модели при выполнении 1.230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов, вносящих наибольший вклад в ВВП США. Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет Результат: 1) Ml работают уже почти на уровне экспертов – людей «Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47.6 % по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38.8 % и o3 high с 34.1 % 2) Ml несравненно эффективней людей. «Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты» Самое важное. Это всего лишь сегодняшние модели Через год новые модели будут сильно умней и умелей экспертов людей И профессий будет уже не 44 в 9 отраслях, а много больше. Подробней [1,2]