中意资讯网 中意资讯网

当前位置: 首页 » 前沿资讯 »

OpenAI推出AI Agent评测基准PaperBench

来源:环球网

OpenAI在当地时间4月2日正式宣布,推出了一个旨在评估AI智能体复现前沿AI研究能力的基准——PaperBench。该基准的推出,标志着AI领域在评估智能体能力方面迈出了重要一步。

据了解,PaperBench要求智能体从零开始复现20篇在ICML 2024上获得Spotlight和Oral荣誉的论文。这一任务不仅要求智能体能够深入理解论文的贡献和核心思想,还需要其具备开发代码库并成功执行实验的能力。

在PaperBench上,多个前沿模型接受了测试。其中,表现最佳的智能体Claude 3.5 Sonnet(新版)结合了开源框架,平均复现得分为21.0%。然而,这一成绩并未能够超越人类基线。为了更全面地评估智能体的表现,OpenAI还招募了顶尖机器学习博士尝试部分测试集,结果同样显示,目前智能体的表现尚未达到人类水平。

未经允许不得转载: 中意资讯网 » OpenAI推出AI Agent评测基准PaperBench