04
03

OpenAI宣布推出AI Agent评测基准PaperBench

2025-04-03 07:27分享至
当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。(界面)原文链接

下一篇

流媒体巨头Netflix周三宣布全面升级电视端语言支持功能,新增12种界面语言及8种字幕语言,覆盖斯瓦希里语、祖鲁语等小众语种。此次升级将服务扩展至全球92%的联网电视设备,旨在突破新兴市场增长瓶颈。(新浪财经)

2025-04-03

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业