OpenAI推出AI Agent评测基准PaperBench_前沿资讯

OpenAI推出AI Agent评测基准PaperBench

创始人更新于 2025-04-03 11:08:50 首发于 2025-04-03 11:09:53 前沿资讯 0

来源：环球网

OpenAI在当地时间4月2日正式宣布，推出了一个旨在评估AI智能体复现前沿AI研究能力的基准——PaperBench。该基准的推出，标志着AI领域在评估智能体能力方面迈出了重要一步。

据了解，PaperBench要求智能体从零开始复现20篇在ICML 2024上获得Spotlight和Oral荣誉的论文。这一任务不仅要求智能体能够深入理解论文的贡献和核心思想，还需要其具备开发代码库并成功执行实验的能力。

在PaperBench上，多个前沿模型接受了测试。其中，表现最佳的智能体Claude 3.5 Sonnet（新版）结合了开源框架，平均复现得分为21.0%。然而，这一成绩并未能够超越人类基线。为了更全面地评估智能体的表现，OpenAI还招募了顶尖机器学习博士尝试部分测试集，结果同样显示，目前智能体的表现尚未达到人类水平。

中意资讯网

OpenAI推出AI Agent评测基准PaperBench

热门标签

最新更新

友情链接