TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
帖子内容
大模型集体“挂科” 最新中文网页检索测试结果显示GPT-4o准确率仅6.2% GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%。目前,BrowseComp-ZH的全部数据已开源发布。研究团队直言:“当前主流模型,距离成为真正懂中文互联网的智能体,还差得远。”为什么我们需要中文网页能力测试?如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。但众多评估工具都只在英文语境下建立,对…