OpenAI开源BrowseComp，重塑Agent浏览器评测

OpenAI重磅开源BrowseComp测试基准：智能体浏览器能力迎来革命性突破

北京时间今日凌晨2点，OpenAI正式开源了专为评估智能体浏览器功能设计的测试基准——BrowseComp。这一突破性工具将彻底改变AI智能体在网页浏览和信息处理领域的开发标准。

测试基准难度惊人：主流AI模型表现惨淡
BrowseComp测试基准的难度系数远超预期：
- 标准版GPT-4o准确率仅0.6%
- GPT-4.5表现略好，但也仅有0.9%准确率
- 即便配备浏览器功能的GPT-4o版本，准确率也仅提升至1.9%

Deep Research模型表现惊艳：准确率突破50%大关
OpenAI最新发布的Agent模型Deep Research在BrowseComp测试中展现出惊人实力：
- 整体准确率高达51.5%，远超其他模型
- 在自主搜索能力上实现重大突破
- 信息整合效率达到行业新高度
- 准确性校准机制表现卓越

对投资者的潜在影响分析：
1. 技术壁垒提升：OpenAI再次确立在AI浏览器智能体领域的技术领先地位
2. 行业标准重塑：BrowseComp可能成为评估浏览器智能体的新基准
3. 投资机会浮现：关注能快速适配BrowseComp标准的AI初创企业
4. 竞争格局变化：现有AI产品可能面临新一轮技术迭代压力

（消息来源：AIGC开放社区）