

Open AI的一组人工智能研究人员开发了一种工具,供人工智能开发人员使用,以衡量人工智能机器学习工程能力。该团队撰写了一篇论文,描述了他们的基准测试工具,并将其命名为MLE-bench,并将其发布在arXiv预印本服务器上。该团队还在公司网站上发布了一个网页,介绍这个开源的新工具。
随着基于计算机的机器学习和相关的人工应用在过去几年中蓬勃发展,新的应用类型已经得到了测试。其中一个应用是机器学习工程,人工智能被用来处理工程思维问题,进行实验和生成新代码。
其理念是加快新发现的开发或为老问题找到新的解决方案,同时降低工程成本,以更快的速度生产新产品。
该领域的一些人甚至认为,某些类型的人工智能工程可能会导致人工智能系统的发展,在进行工程工作方面超越人类,使人类在这一过程中的作用过时。该领域的其他人对未来版本的人工智能工具的安全性表示担忧,他们想知道人工智能工程系统发现人类不再需要的可能性。
OpenAI的新基准测试工具并没有专门解决这些问题,但确实为开发旨在防止其中一种或两种结果的工具打开了大门。
这个新工具本质上是一系列测试——总共75个,全部来自Kaggle平台。测试包括让一个新的人工智能尽可能多地解决问题。所有这些都是基于现实世界的,比如要求一个系统破译古代卷轴或开发一种新型mRNA疫苗。
然后,系统会对测试结果进行审查,看看任务解决得如何,以及结果是否可以在现实世界中使用——然后给出分数。毫无疑问,这些测试的结果也将被OpenAI团队用作衡量人工智能研究进展的标准。
值得注意的是,mle bench测试人工智能系统自主进行工程工作的能力,包括创新。为了提高他们在这样的台架测试中的分数,被测试的人工智能系统很可能也必须从他们自己的工作中学习,也许包括他们在mle台架上的结果。
更多信息:Jun Shern Chan等人,MLE-bench:在机器学习工程上评估机器学习代理,arXiv(2024)。DOI: 10.48550 / arxiv.2410.07095
openai.com/index/mle-bench/
期刊信息:
arXiv
?2024 Science X Network
引用: OpenAI推出基准测试工具来衡量AI代理的机器学习工程性能(2024年10月15日)
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。