Post #2609

@AkashaTerminal

Akasha Terminal: dev🍃

Views332帖子阅读量

发布5月9日2025/05/09 04:18

Post content

帖子内容

大模型集体“挂科” 最新中文网页检索测试结果显示GPT-4o准确率仅6.2% GPT-4o在测试中准确率仅6.2%；多数国产/国际模型准确率跌破10%；即便是目前表现最好的OpenAI DeepResearch，也仅得42.9%。目前，BrowseComp-ZH的全部数据已开源发布。研究团队直言：“当前主流模型，距离成为真正懂中文互联网的智能体，还差得远。”为什么我们需要中文网页能力测试？如今的大模型越来越擅长“用工具”：能连搜索引擎、能调用插件、能“看网页”。但众多评估工具都只在英文语境下建立，对…