TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
又一中國模型趕超OpenAI!Qwen2.5-Max數學編程能力全球出眾 4日凌晨,三方基準測試平台Chatbot Arena公佈了最新的大模型盲測榜單,一週前阿里雲通義團隊剛發佈的Qwen2.5-Max超越DeepSeek V3、OpenAI o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,也是非推理類的中國大模型冠軍。同時,Qwen2.5-Max在數學和編程等單項能力上排名第一,在硬提示(Hard prompts)方面排名第二。據瞭解,Chatbot Arena是由LMSYS Org推出的大模型性能測試平台,目前集成了190多種模型。該榜單採用匿名方式將大模型兩兩組隊,交給用户進行盲測,用户根據真實對話體驗對模型能力進行投票。ChatBot Arena官方評價稱,Qwen2.5-Max在多個領域表現強勁,特別是專業技術向的,例如編程、數學、硬提示等。 #國是直通車