,东方明珠电话:传承与创新中的电信传奇
,LLM终于学会推公式了!博世x清华推出FunctionEvolve:LLM-SRBench提升3.6倍,很高兴为您解答这个问题,让我来帮您详细说明一下。
榆林市清涧县、广西百色市田林县、乐山市沙湾区、海南贵德县、抚州市宜黄县、芜湖市无为市、岳阳市君山区、定西市通渭县、淮安市涟水县、定安县龙湖镇、贵阳市观山湖区、武汉市青山区、东莞市长安镇、上海市宝山区、三门峡市渑池县、内蒙古巴彦淖尔市杭锦后旗、广西河池市大化瑶族自治县
从实验数据中发掘科学规律,这件事每天都在世界各地的实验室里上演:研究者们把观测结果整理成表格、画成曲线,凭直觉和经验猜测背后的函数形式,再反复修正,最终得到一个既能拟合数据、又能理解机制的数学公式。无论是开普勒从第谷的观测数据中提炼出行星运动定律,还是当代工程师们每天进行着的各种标定,背后依赖的都是这样的过程。符号回归(Symbolic Regression)的目标,就是让计算机自动完成这种 " 从数据到公式 " 的发现。但这项任务长期以困难著称:候选公式的空间近乎无限。即使加上大语言模型(LLM)的语义引导,此前最好的方法在面对最新基准 LLM-SRBench 的 129 个合成科学方程任务时,准确率也仅有 15%。近期,来自博世中央研究院与清华大学的研究人员提出 FunctionEvolve 框架,在两大基准测试上大幅刷新了这项任务的结果。在 LLM-SRBench 的 129 个合成科学方程任务上,FunctionEvolve 最终给出的公式在 55.8% 的任务上与真实公式等价(SA@1 = 72/129),是此前最好结果的 3.6 倍;若将范围放宽至误差最小的前 50 个公式,这一比例更是达到 82.9%(SA@50 = 107/129)。而在经典测试基准 AI-Feynman 的 120 个任务上,FunctionEvolve 则拿到了满分:SA@1 = 120/120,即最终给出的每一个公式都正确。LLM-SRBench 129 个合成任务上的主结果:表中报告 SA@50(括号内为 SA@1)、Acc0.1 任务数与测试集 NMSE 中位数;加粗为各列最优,ground-truth 行是作为参考上界的真实公式表现论文标题:FunctionEvolve: Structure-Guided Symbolic Regression with LLMs项目地址:https://github.com/Phoinikas03/FunctionEvolve论文链接:https://arxiv.org/abs/2606.07704本文第一作者夏泽宇,是清华大学计算机系朱军教授课题组的博士一年级学生,研究方向为 LLM 推理及其科学应用。通讯作者阎栋博士是博世首席 AI 科学家、前百川智能研究负责人,长期从事 LLM 训练、推理和强化学习研究。博世中央研究院聚焦 LLM、AI4Science 等前沿方向,致力于打通从学术突破到工业落地的全链路创新,以前沿技术赋能产业变革。FunctionEvolve 总体流程:从任务背景中提取先验,生成种子公式,再通过结构信息引导父本选择、AST 与 LLM 局部变异、结构分类的系数优化等步骤,持续迭代候选表达式为什么要让公式沿结构进化符号回归的难,首先难在问题本身:几个变量加上十几个运算符,能组合出的公式数量多到天文数字,逐一去试根本不现实。更关键的是,符号回归的目标从来不是 " 把数据拟合准 " 这么简单。用冯・诺依曼的话说:" 给我四个参数,我可以拟合出一头大象,而用五个参数我可以让它的鼻子摆动。" 它说明只要表达式足够复杂,我们几乎总能构造出一个公式,把有限的数据点拟合的天衣无缝;但这只是记住了数据,而不是发现了规律。一旦输入范围发生变化,或者遇到新的实验条件,这类公式的预测就可能迅速崩掉。因此,符号回归真正困难的地方,不只是从巨大公式空间里找到一个低误差表达式,而是在低误差、简洁性、可解释性和外推能力之间找到平衡。要把符号回归搜索从 " 压低误差 " 引向 " 找对规律 ",就得用上领域知识。比如任务描述里写着 "r 是两个带电粒子之间的距离 ",那么平方反比项就比 r 的高次多项式更值得一试 —— 这种判断正是 LLM 擅长的,它能读懂任务背景,把领域知识变成对公式形式的建议。但这种语义判断必须落到可操作的公式语法上,才能真正进入搜索过程:同样是 " 试试平方反比 ",究竟该在当前公式里找到含 r 的哪一项替换?这就要求系统清楚公式由哪些部分组成、改动该落在哪。表达式树 / 抽象语法树(AST, Abstract Syntax Tree)提供的正是这种语法形式:它把公式拆成层级结构,公式由哪几部分组成、哪些部分值得保留、改动可以落在哪里,都一目了然。从 AST 的视角出发,传统 Genetic Programming(GP)有语法表示,却缺少语义引导,结构变异多是随机试探;而直接用 LLM 生成公式虽有语义方向,却缺少稳定的语法约束,容易整体改写公式并破坏已有子结构。FunctionEvolve 的切入点,就是把公式显式表示为表达式树。它重新定位了 LLM 的参与方式:系统看到的除了拟合误差,还有公式的内部构造,每一步修改都落在公式的一个子结构上。这棵树也贯穿 FunctionEvolve 的每个环节:生成起点(Generator):先由 LLM 根据任务背景写出一批种子公式,让搜索从贴合问题的起点出发;选择方向(Selector):结构相近的候选被归为一类,搜索预算优先分给结构上有差异的方向,避免在同一类结构上反复打转;局部变异(Mutator):LLM 提出的改进意见(比如 " 把这一项换成平方反比 ")被落实为表达式树上的局部操作,避免推倒重写或随意更改;拟合与评分(Optimizer):结构定下来后,公式里的待定系数还要靠数据调到最合适。系统利用结构信息让这一步更可靠:线性叠加的系数可以直接解出,不必参与搜索;剩下的系数也能按所在位置压缩搜索范围,比如三角函数里的相位只需在一个周期内找。这显著降低了正确的公式形式因为系数没调好而被错判的风险。最后,系统还会认出写法不同、实则相同的候选,去掉重复,再决定哪些公式进入下一轮。因此,FunctionEvolve 把 LLM 的语义引导约束在表达式树这套语法里,让生成、选择、变异和评分都围绕结构展开。FunctionEvolve 在表达式树上进行局部结构变异,使 LLM 的语义建议能够落到可控的子结构扩展或替换上主要结果:双基准验证研究团队选择了两个互补的基准来评估 FunctionEvolve。主要结果基于最新的 LLM-SRBench:它的 129 个科学方程任务覆盖化学、生物、物理和材料科学四个领域,并且都是人工合成的,LLM 几乎不可能在训练预料中见过,因此更能考察方法是否真的是在 " 发现 " 公式,还是在背诵记忆。补充验证使用经典的 AI-Feynman:它的 120 个方程取自《费曼物理学讲义》,从万有引力到电磁学,都是物理学里真实的定律,长期以来是符号回归方法的标准试金石,能检验方法在真实科学公式上是否同样有效。论文主要报告三类指标。导语中出现的符号准确率 SA@k,它的定义是按训练数据上的归一化均方误差(NMSE)排序后,前 k 个候选表达式中是否出现与目标公式符号等价的结果。事实上,很多公式写法不同,但数学上是等价的,也就是本文说的 " 正确公式 ";SA@50 衡量了 FunctionEvolve 是否找到了答案,SA@1 则衡量其能否把答案排在首位。Acc ( τ ) 衡量首位候选公式在测试点上的最大相对误差是否低于阈值 τ,因此 Acc ( 0.1 ) 表示相对误差低于 0.1 的任务数;测试集 NMSE 的中位数则反映整体数值拟合误差,数值越低说明拟合越好。LLM-SRBench:符号准确率 3.6 倍于此前最好结果在 LLM-SRBench 主实验中,对比最明显地体现在公式的符号准确率上。使用同样的 Claude Opus 4.6 作为后端,此前方法 LLM-SR 与 OpenEvolve 的 SA@50 都是 24/129,而 FunctionEvolve 提升到 107/129;只看首位候选,FunctionEvolve 的 SA@1 也达到 72/129。换用 GPT-5.2 medium、DeepSeek-V4-Pro、Qwen3.6-27B 和 Llama-3.1-8B 测试,SA@50 仍分别达到 103、99、86 和 62。即便是开源的 8B 小模型,也远高于此前方法用强闭源模型取得的结果,说明提升主要来自结构化 FunctionEvolve 框架本身,而非某个闭源模型。注:PiT-PO 原文只报告了 top-1 结果,故无 SA@50;它是此前 SA@1 的最好公开结果(20/129,约 15%),本文中的 "3.6 倍 " 即以此为基准。AI-Feynman:120/120 全命中,但要区分 " 背 " 与 " 推 "在补充验证的 AI-Feynman 上,FunctionEvolve 的 top-1 候选在全部 120 个任务中命中正确公式;作为参照,此前的 SOTA 方法 QDSR 命中了 107 个。也就是说,无论面对合成方程还是真实物理定律,FunctionEvolve 都取得了迄今为止的最高准确率。不过,AI-Feynman 的公式来自经典物理教材,LLM 很可能在训练语料中见过。为检验记忆的影响,研究团队统计了每个任务中第一个正确公式出现的轮次:第 0 轮就命中,说明答案已经写在 LLM 生成的初始种子里,更像是 " 背 " 出来的;出现在后续轮次,则说明答案来自搜索过程本身。下图的轮次分布显示,两个基准恰好呈现出相反的模式:AI-Feynman 的正确公式集中在第 0 轮,记忆的成分确实存在;而在不可能被背过的 LLM-SRBench 上,正确公式大多出现在后续轮次。这正说明,FunctionEvolve 并不是在调取 LLM 的记忆,而是把 LLM 放进了推理过程,让正确公式在一轮轮局部变异、系数拟合和重新评分中逐步被 " 推 " 出来。分析实验:候选筛选与组件消融除两个基准上的主结果外,论文还进行了两组分析:一组考察最终候选的筛选策略,说明许多已被推出来的正确公式只是在排序阶段被挤出了首位;另一组通过系统消融,量化各组件对整体性能的贡献。正确公式常被挤出首位:让筛选偏好更简单的公式LLM-SRBench 的 129 个任务中,若看 SA@50 FunctionEvolve 答对了 107 个,看 SA@1 则答对 72 个。这个差距揭示了另一个问题:推理过程常常已经找到了正确公式,只是按训练 NMSE 排序时,它会被误差更低的复杂近似式挤到后面。那么,在不动用测试集等额外信息的前提下,能否靠 " 选择形式更简洁的公式 " 把这些已经找到的答案筛出来?为检验这一点,论文固定完整搜索轨迹,不改变生成、变异和系数优化过程,只在推理结束后比较三种基于训练误差与表达式复杂度的筛选方案:Pareto 保留在误差和复杂度之间不可同时改进的候选,Occam 在误差接近时优先选择更简单的表达式,MDL(Minimum Description Length)则把误差和复杂度合并为一个总成本。三种精筛方案:Pareto 通过平衡 NMSE 与复杂度对候选进行非支配排序,Occam 在近似最优训练误差范围内筛选简单表达式,MDL 则将训练误差与复杂度加权评分结果显示,同样只筛出 5 个表达式,Pareto 和 Occam 分别让 102 和 101 个任务的最终名单中包含正确公式;而单纯按训练 NMSE 取前 5 名,做到这一点的只有 89 个任务。换句话说,很多第一候选错误的任务其实早已生成过正确公式,只是被误差更低的复杂近似式挤到了后面。消融实验:结构信息带来了什么为了验证各环节的作用,研究团队把它们逐一移除,做了系统消融。表中的组件名即 FunctionEvolve 的四个环节:Generator 生成起点、Selector 挑选方向、Mutator 局部修改、Optimizer 拟合与评分;其中 Mutator 又分为两路,LLM Mutator 是 LLM 给出的语义引导修改,AST Mutator 是程序化的规则增删。下表汇总了使用 Claude Opus 4.6 的主要消融结果:几个值得注意的本周数据平台稍早前行业协会报道新政,,东方明珠电话:传承与创新中的电信传奇,很高兴为您解答这个问题,让我来帮您详细说明一下:
大庆市大同区、忻州市忻府区 ,成都市龙泉驿区、商洛市商南县、毕节市金沙县、定安县翰林镇、大兴安岭地区漠河市、四平市伊通满族自治县、温州市平阳县、果洛玛沁县、齐齐哈尔市碾子山区、台州市温岭市、遵义市桐梓县、吕梁市文水县、汉中市洋县、忻州市原平市、恩施州巴东县 、郑州市中牟县、株洲市芦淞区、潍坊市奎文区、齐齐哈尔市泰来县、通化市辉南县、上海市杨浦区、广西玉林市容县、新余市渝水区、临沂市河东区、汉中市汉台区、阜阳市颍泉区、杭州市西湖区、东方市八所镇、黄南尖扎县
全球服务区域: 湖州市德清县、广西柳州市城中区 、宜昌市伍家岗区、杭州市西湖区、昆明市石林彝族自治县、金华市金东区、广西柳州市柳北区、儋州市王五镇、北京市平谷区、内蒙古呼和浩特市武川县、三沙市西沙区、蚌埠市龙子湖区、上饶市玉山县、清远市英德市、丽江市玉龙纳西族自治县、延安市子长市、保亭黎族苗族自治县什玲 、广西梧州市长洲区、苏州市常熟市、菏泽市牡丹区、漯河市郾城区、上海市黄浦区
专家在线诊断专线,,东方明珠电话:传承与创新中的电信传奇,很高兴为您解答这个问题,让我来帮您详细说明一下:
全国服务区域: 马鞍山市雨山区、伊春市南岔县 、商丘市永城市、信阳市潢川县、牡丹江市宁安市、广西贵港市港南区、衢州市开化县、内蒙古呼和浩特市土默特左旗、漳州市漳浦县、三明市永安市、陵水黎族自治县本号镇、眉山市丹棱县、安康市紫阳县、中山市民众镇、宿州市泗县、广元市朝天区、咸阳市礼泉县 、泰州市兴化市、随州市随县、吉林市磐石市、三门峡市卢氏县、成都市金牛区、汕尾市陆河县、通化市二道江区、淮南市田家庵区、上饶市鄱阳县、遵义市桐梓县、黄山市黟县、伊春市铁力市、齐齐哈尔市建华区、大兴安岭地区新林区、广西贵港市覃塘区、咸宁市嘉鱼县、昭通市鲁甸县、内蒙古鄂尔多斯市鄂托克旗、临沂市兰陵县、白沙黎族自治县青松乡、吉安市吉安县、达州市通川区、铜仁市石阡县、黄山市休宁县
近日观测中心传出重要预警:,东方明珠电话:传承与创新中的电信传奇
在我国电信行业的发展历程中,东方明珠电话无疑是一个璀璨的明珠。它不仅见证了我国电信事业的蓬勃发展,更以其卓越的品质和优质的服务赢得了广大用户的信赖。今天,让我们一起来回顾东方明珠电话的传奇故事,感受其在传承与创新中的辉煌历程。 一、东方明珠电话的诞生 20世纪80年代,我国电信事业正处于起步阶段。为了满足日益增长的通信需求,邮电部决定引进国外先进技术,建设我国第一条长途电话网。1984年,东方明珠电话应运而生,标志着我国电信事业迈入了新的发展阶段。 二、东方明珠电话的辉煌历程 1. 技术创新:东方明珠电话在发展过程中,始终坚持以技术创新为核心。从模拟电话到数字电话,从固定电话到移动电话,东方明珠电话不断突破技术瓶颈,为用户提供更加便捷、高效的通信服务。 2. 服务升级:东方明珠电话始终将用户需求放在首位,不断提升服务水平。从最初的简单通话服务,到如今的宽带、融合通信、智能家居等多元化服务,东方明珠电话不断满足用户日益增长的通信需求。 3. 品牌建设:东方明珠电话在品牌建设方面也取得了显著成果。通过多年的努力,东方明珠电话已成为我国电信行业的知名品牌,赢得了广大用户的认可和信赖。 三、东方明珠电话的传承与创新 1. 传承:东方明珠电话在传承中不断发展。它继承了我国电信事业的优良传统,始终坚持“用户至上、服务第一”的理念,为用户提供优质、高效的通信服务。 2. 创新:在新时代背景下,东方明珠电话不断创新发展。通过引入新技术、拓展新业务,东方明珠电话为用户带来了更加丰富、便捷的通信体验。 四、东方明珠电话的未来展望 面对未来,东方明珠电话将继续秉承“传承与创新”的理念,不断提升自身实力。在5G时代,东方明珠电话将充分发挥自身优势,为用户提供更加智能、高效的通信服务,助力我国电信事业迈向新的高峰。 总之,东方明珠电话在我国电信行业的发展历程中扮演了举足轻重的角色。它不仅见证了我国电信事业的辉煌成就,更以其卓越的品质和优质的服务赢得了广大用户的信赖。在未来的日子里,东方明珠电话将继续传承与创新,为我国电信事业的发展贡献力量。
从实验数据中发掘科学规律,这件事每天都在世界各地的实验室里上演:研究者们把观测结果整理成表格、画成曲线,凭直觉和经验猜测背后的函数形式,再反复修正,最终得到一个既能拟合数据、又能理解机制的数学公式。无论是开普勒从第谷的观测数据中提炼出行星运动定律,还是当代工程师们每天进行着的各种标定,背后依赖的都是这样的过程。符号回归(Symbolic Regression)的目标,就是让计算机自动完成这种 " 从数据到公式 " 的发现。但这项任务长期以困难著称:候选公式的空间近乎无限。即使加上大语言模型(LLM)的语义引导,此前最好的方法在面对最新基准 LLM-SRBench 的 129 个合成科学方程任务时,准确率也仅有 15%。近期,来自博世中央研究院与清华大学的研究人员提出 FunctionEvolve 框架,在两大基准测试上大幅刷新了这项任务的结果。在 LLM-SRBench 的 129 个合成科学方程任务上,FunctionEvolve 最终给出的公式在 55.8% 的任务上与真实公式等价(SA@1 = 72/129),是此前最好结果的 3.6 倍;若将范围放宽至误差最小的前 50 个公式,这一比例更是达到 82.9%(SA@50 = 107/129)。而在经典测试基准 AI-Feynman 的 120 个任务上,FunctionEvolve 则拿到了满分:SA@1 = 120/120,即最终给出的每一个公式都正确。LLM-SRBench 129 个合成任务上的主结果:表中报告 SA@50(括号内为 SA@1)、Acc0.1 任务数与测试集 NMSE 中位数;加粗为各列最优,ground-truth 行是作为参考上界的真实公式表现论文标题:FunctionEvolve: Structure-Guided Symbolic Regression with LLMs项目地址:https://github.com/Phoinikas03/FunctionEvolve论文链接:https://arxiv.org/abs/2606.07704本文第一作者夏泽宇,是清华大学计算机系朱军教授课题组的博士一年级学生,研究方向为 LLM 推理及其科学应用。通讯作者阎栋博士是博世首席 AI 科学家、前百川智能研究负责人,长期从事 LLM 训练、推理和强化学习研究。博世中央研究院聚焦 LLM、AI4Science 等前沿方向,致力于打通从学术突破到工业落地的全链路创新,以前沿技术赋能产业变革。FunctionEvolve 总体流程:从任务背景中提取先验,生成种子公式,再通过结构信息引导父本选择、AST 与 LLM 局部变异、结构分类的系数优化等步骤,持续迭代候选表达式为什么要让公式沿结构进化符号回归的难,首先难在问题本身:几个变量加上十几个运算符,能组合出的公式数量多到天文数字,逐一去试根本不现实。更关键的是,符号回归的目标从来不是 " 把数据拟合准 " 这么简单。用冯・诺依曼的话说:" 给我四个参数,我可以拟合出一头大象,而用五个参数我可以让它的鼻子摆动。" 它说明只要表达式足够复杂,我们几乎总能构造出一个公式,把有限的数据点拟合的天衣无缝;但这只是记住了数据,而不是发现了规律。一旦输入范围发生变化,或者遇到新的实验条件,这类公式的预测就可能迅速崩掉。因此,符号回归真正困难的地方,不只是从巨大公式空间里找到一个低误差表达式,而是在低误差、简洁性、可解释性和外推能力之间找到平衡。要把符号回归搜索从 " 压低误差 " 引向 " 找对规律 ",就得用上领域知识。比如任务描述里写着 "r 是两个带电粒子之间的距离 ",那么平方反比项就比 r 的高次多项式更值得一试 —— 这种判断正是 LLM 擅长的,它能读懂任务背景,把领域知识变成对公式形式的建议。但这种语义判断必须落到可操作的公式语法上,才能真正进入搜索过程:同样是 " 试试平方反比 ",究竟该在当前公式里找到含 r 的哪一项替换?这就要求系统清楚公式由哪些部分组成、改动该落在哪。表达式树 / 抽象语法树(AST, Abstract Syntax Tree)提供的正是这种语法形式:它把公式拆成层级结构,公式由哪几部分组成、哪些部分值得保留、改动可以落在哪里,都一目了然。从 AST 的视角出发,传统 Genetic Programming(GP)有语法表示,却缺少语义引导,结构变异多是随机试探;而直接用 LLM 生成公式虽有语义方向,却缺少稳定的语法约束,容易整体改写公式并破坏已有子结构。FunctionEvolve 的切入点,就是把公式显式表示为表达式树。它重新定位了 LLM 的参与方式:系统看到的除了拟合误差,还有公式的内部构造,每一步修改都落在公式的一个子结构上。这棵树也贯穿 FunctionEvolve 的每个环节:生成起点(Generator):先由 LLM 根据任务背景写出一批种子公式,让搜索从贴合问题的起点出发;选择方向(Selector):结构相近的候选被归为一类,搜索预算优先分给结构上有差异的方向,避免在同一类结构上反复打转;局部变异(Mutator):LLM 提出的改进意见(比如 " 把这一项换成平方反比 ")被落实为表达式树上的局部操作,避免推倒重写或随意更改;拟合与评分(Optimizer):结构定下来后,公式里的待定系数还要靠数据调到最合适。系统利用结构信息让这一步更可靠:线性叠加的系数可以直接解出,不必参与搜索;剩下的系数也能按所在位置压缩搜索范围,比如三角函数里的相位只需在一个周期内找。这显著降低了正确的公式形式因为系数没调好而被错判的风险。最后,系统还会认出写法不同、实则相同的候选,去掉重复,再决定哪些公式进入下一轮。因此,FunctionEvolve 把 LLM 的语义引导约束在表达式树这套语法里,让生成、选择、变异和评分都围绕结构展开。FunctionEvolve 在表达式树上进行局部结构变异,使 LLM 的语义建议能够落到可控的子结构扩展或替换上主要结果:双基准验证研究团队选择了两个互补的基准来评估 FunctionEvolve。主要结果基于最新的 LLM-SRBench:它的 129 个科学方程任务覆盖化学、生物、物理和材料科学四个领域,并且都是人工合成的,LLM 几乎不可能在训练预料中见过,因此更能考察方法是否真的是在 " 发现 " 公式,还是在背诵记忆。补充验证使用经典的 AI-Feynman:它的 120 个方程取自《费曼物理学讲义》,从万有引力到电磁学,都是物理学里真实的定律,长期以来是符号回归方法的标准试金石,能检验方法在真实科学公式上是否同样有效。论文主要报告三类指标。导语中出现的符号准确率 SA@k,它的定义是按训练数据上的归一化均方误差(NMSE)排序后,前 k 个候选表达式中是否出现与目标公式符号等价的结果。事实上,很多公式写法不同,但数学上是等价的,也就是本文说的 " 正确公式 ";SA@50 衡量了 FunctionEvolve 是否找到了答案,SA@1 则衡量其能否把答案排在首位。Acc ( τ ) 衡量首位候选公式在测试点上的最大相对误差是否低于阈值 τ,因此 Acc ( 0.1 ) 表示相对误差低于 0.1 的任务数;测试集 NMSE 的中位数则反映整体数值拟合误差,数值越低说明拟合越好。LLM-SRBench:符号准确率 3.6 倍于此前最好结果在 LLM-SRBench 主实验中,对比最明显地体现在公式的符号准确率上。使用同样的 Claude Opus 4.6 作为后端,此前方法 LLM-SR 与 OpenEvolve 的 SA@50 都是 24/129,而 FunctionEvolve 提升到 107/129;只看首位候选,FunctionEvolve 的 SA@1 也达到 72/129。换用 GPT-5.2 medium、DeepSeek-V4-Pro、Qwen3.6-27B 和 Llama-3.1-8B 测试,SA@50 仍分别达到 103、99、86 和 62。即便是开源的 8B 小模型,也远高于此前方法用强闭源模型取得的结果,说明提升主要来自结构化 FunctionEvolve 框架本身,而非某个闭源模型。注:PiT-PO 原文只报告了 top-1 结果,故无 SA@50;它是此前 SA@1 的最好公开结果(20/129,约 15%),本文中的 "3.6 倍 " 即以此为基准。AI-Feynman:120/120 全命中,但要区分 " 背 " 与 " 推 "在补充验证的 AI-Feynman 上,FunctionEvolve 的 top-1 候选在全部 120 个任务中命中正确公式;作为参照,此前的 SOTA 方法 QDSR 命中了 107 个。也就是说,无论面对合成方程还是真实物理定律,FunctionEvolve 都取得了迄今为止的最高准确率。不过,AI-Feynman 的公式来自经典物理教材,LLM 很可能在训练语料中见过。为检验记忆的影响,研究团队统计了每个任务中第一个正确公式出现的轮次:第 0 轮就命中,说明答案已经写在 LLM 生成的初始种子里,更像是 " 背 " 出来的;出现在后续轮次,则说明答案来自搜索过程本身。下图的轮次分布显示,两个基准恰好呈现出相反的模式:AI-Feynman 的正确公式集中在第 0 轮,记忆的成分确实存在;而在不可能被背过的 LLM-SRBench 上,正确公式大多出现在后续轮次。这正说明,FunctionEvolve 并不是在调取 LLM 的记忆,而是把 LLM 放进了推理过程,让正确公式在一轮轮局部变异、系数拟合和重新评分中逐步被 " 推 " 出来。分析实验:候选筛选与组件消融除两个基准上的主结果外,论文还进行了两组分析:一组考察最终候选的筛选策略,说明许多已被推出来的正确公式只是在排序阶段被挤出了首位;另一组通过系统消融,量化各组件对整体性能的贡献。正确公式常被挤出首位:让筛选偏好更简单的公式LLM-SRBench 的 129 个任务中,若看 SA@50 FunctionEvolve 答对了 107 个,看 SA@1 则答对 72 个。这个差距揭示了另一个问题:推理过程常常已经找到了正确公式,只是按训练 NMSE 排序时,它会被误差更低的复杂近似式挤到后面。那么,在不动用测试集等额外信息的前提下,能否靠 " 选择形式更简洁的公式 " 把这些已经找到的答案筛出来?为检验这一点,论文固定完整搜索轨迹,不改变生成、变异和系数优化过程,只在推理结束后比较三种基于训练误差与表达式复杂度的筛选方案:Pareto 保留在误差和复杂度之间不可同时改进的候选,Occam 在误差接近时优先选择更简单的表达式,MDL(Minimum Description Length)则把误差和复杂度合并为一个总成本。三种精筛方案:Pareto 通过平衡 NMSE 与复杂度对候选进行非支配排序,Occam 在近似最优训练误差范围内筛选简单表达式,MDL 则将训练误差与复杂度加权评分结果显示,同样只筛出 5 个表达式,Pareto 和 Occam 分别让 102 和 101 个任务的最终名单中包含正确公式;而单纯按训练 NMSE 取前 5 名,做到这一点的只有 89 个任务。换句话说,很多第一候选错误的任务其实早已生成过正确公式,只是被误差更低的复杂近似式挤到了后面。消融实验:结构信息带来了什么为了验证各环节的作用,研究团队把它们逐一移除,做了系统消融。表中的组件名即 FunctionEvolve 的四个环节:Generator 生成起点、Selector 挑选方向、Mutator 局部修改、Optimizer 拟合与评分;其中 Mutator 又分为两路,LLM Mutator 是 LLM 给出的语义引导修改,AST Mutator 是程序化的规则增删。下表汇总了使用 Claude Opus 4.6 的主要消融结果:几个值得注意的
文章点评