用对成功的精确衡量取代对人工智能的炒作

时尚美容作者 / 花爷 / 2025-06-07 18:24

　　机器学习是人工智能的一种形式，围绕它的炒作可能会让它看起来像零这些技术被用来解决所有科学问题只是时间问题。虽然经常有令人印象深刻的说法，但这些说法并不总是经得起推敲。机器学习可能对解决某些问题有用，但对其他问题却有所欠缺。

　　在《自然机器智能》杂志上发表的一篇新论文中，美国能源部普林斯顿等离子体物理实验室(PPPL)和普林斯顿大学的研究人员对机器学习与求解流体相关偏微分方程(PDEs)的传统方法的比较研究进行了系统回顾。这些方程在许多科学领域都很重要，包括支持电网核聚变发电发展的等离子体研究。

　　研究人员发现，解决流体相关偏微分方程的机器学习方法与传统方法之间的比较往往偏向于机器学习方法。他们还发现，负面结果一直被低估。他们提出了进行公平比较的规则，但认为文化变革也需要解决似乎是系统性的问题。

　　“我们的研究表明，尽管机器学习具有巨大的潜力，但目前的文献对机器学习如何解决这些特定类型的方程描绘了一幅过于乐观的图景，”PPPL计算科学副主任、该研究的首席研究员Ammar Hakim说。

　　偏微分方程在物理学中无处不在，在解释热、流体流动和波动等自然现象时特别有用。例如，这类方程可以用来计算放在热汤里的勺子沿长度的温度。知道汤和勺子的初始温度，以及勺子中的金属类型，PDE可以用来确定餐具在放入汤后的给定时间内任何一点的温度。这样的方程用于等离子体物理学，因为许多控制等离子体的方程在数学上与流体的方程相似。

　　科学家和工程师已经开发了各种数学方法来求解偏微分方程。一种方法被称为数值方法，因为它是用数值方法解决问题，而不是用分析方法或符号方法来找到难以或不可能精确解决的问题的近似解。最近，研究人员探索了机器学习是否可以用来解决这些偏微分方程。目标是比用其他方法更快地解决问题。系统综述发现，在大多数期刊文章中，机器学习并不像宣传的那样成功。“我们的研究表明，在某些情况下，机器学习在解决与流体相关的偏微分方程时可能会稍微快一些，但在大多数情况下，数值方法更快，”Nick McGreivy说。McGreivy是这篇论文的主要作者，最近在普林斯顿等离子体物理学项目完成了他的博士学位。

　　数值方法在精度和运行时间之间有一个基本的权衡。“如果你花更多的时间来解决问题，你会得到更准确的答案，”McGreivy说。“许多论文在比较时没有考虑到这一点。”

　　此外，不同的数值方法在速度上可能存在显著差异。McGreivy说，为了有用，机器学习方法需要胜过最好的数值方法。然而，他的研究发现，人们经常将其与比最快的方法慢得多的数值方法进行比较。

　　因此，本文提出了两个规则来试图克服这些问题。第一条规则是只将机器学习方法与精度相等或运行时间相等的数值方法进行比较。第二是将机器学习方法与有效的数值方法进行比较。

　　在研究的82篇期刊文章中，有76篇声称机器学习方法比数值方法表现更好。研究人员发现，在那些吹捧机器学习方法优越的文章中，有79%的文章实际上有一个薄弱的基线，至少违反了其中一条规则。四篇期刊文章声称与数值方法相比表现不佳，两篇文章声称有相似或不同的表现。

　　McGreivy说:“很少有文章报告机器学习的表现更差，不是因为机器学习几乎总是更好，而是因为研究人员几乎从不发表机器学习表现更差的文章。”

　　研究人员创造了上面的图像来传达弱基线和报告偏差对样本的累积影响。圆形或六边形代表物品。绿色表示积极的结果，例如机器学习方法比数值方法快，而红色表示消极的结果。(a)列显示了如果使用强基线并且报告偏差不存在的话，系统可能会是什么样子。(b)列描述了没有报告偏倚的可能结果。(c)列显示了在已发表文献中看到的实际结果。

　　McGreivy认为，低标准的比较通常是由学术出版中的不正当动机驱动的。“为了让论文被接受，有一些令人印象深刻的结果是有帮助的。这会激励你让你的机器学习模型尽可能地工作，这是件好事。然而，如果您比较的基准方法不是很好，您也可以获得令人印象深刻的结果。因此，你没有动力去提高自己的基准，这很糟糕。”最终的结果是，研究人员最终在他们的模型上努力工作，但没有找到最好的数值方法作为比较的基准。

　　研究人员还发现了报告偏倚的证据，包括发表偏倚和结果报告偏倚。当研究人员意识到他们的机器学习模型不如数值方法表现得更好时，他们选择不发表他们的结果，而结果报告偏差可能涉及放弃分析中的负面结果，或者使用非标准的成功衡量标准，使机器学习模型看起来更成功。总的来说，报告偏差往往会压制负面结果，并造成一种总体印象，即机器学习更擅长解决与流体相关的偏微分方程。“这个领域有很多炒作。希望我们的工作能为利用机器学习提高技术水平的原则方法提供指导。”

　　为了克服这些系统性的文化问题，Hakim认为资助研究和大型会议的机构应该采取政策来防止使用薄弱的基线，或者要求对所使用的基线及其选择的原因进行更详细的描述。“他们需要鼓励他们的研究人员对他们自己的结果持怀疑态度，”哈基姆说。“如果我发现一些结果好得令人难以置信，那么它们很可能就是真的。”

分享到

声明：本文为用户投稿或编译自英文资料，不代表本站观点和立场，转载时请务必注明文章作者和来源，不尊重原创的行为将受到本站的追责；转载稿件或作者投稿可能会经编辑修改或者补充，有异议可投诉至本站。

用对成功的精确衡量取代对人工智能的炒作

最新文章

热文导读