摘要

人工智能和机器学习的最新进展改变了数据科学，但日益增加的复杂性和专业知识要求继续阻碍了进步。虽然众包平台缓解了一些挑战，但高级数据科学任务仍然是劳动密集型和迭代的。为了克服这些限制，我们引入了 R&D-Agent，这是一个用于迭代探索的双代理框架。

研究人员代理使用性能反馈来生成想法，而开发人员代理则根据错误反馈优化代码。通过启用多个相互合并和增强的并行探索跟踪，R&D-Agent 缩小了自动化解决方案与专家级性能之间的差距。

在 MLE-Bench 上进行评估后，R&D-Agent 成为性能最佳的机器学习工程代理，展示了其加速创新和提高各种数据科学应用程序精度的潜力。

我们在 GitHub 上开源了 R&D-Agent：https://github.com/microsoft/RD-Agent。

1 引言

在过去十年中，人工智能（AI）和机器学习（ML）改变了数据科学格局，为解决跨行业问题开辟了新的可能性。来自个性化电子商务推荐（Ko 等人，2022 年;Isinkaye 等人，2015 年）到人工智能辅助医疗保健诊断（Khanna 等人，2022 年;Shaheen，2021 年），组织利用庞大的数据集和不断改进的算法来取得非凡的成果。然而，随着数据复杂性的增加，对专业知识的需求也在增加——经验丰富的数据科学家，他们可以制作正确的模型、解释细微的模式并有效地迭代以达到最佳解决方案。

为了应对这一技能差距，Kaggle 等众包平台通过提供成千上万的专家和爱好者聚集的协作论坛而蓬勃发展。这些社区既强调了不同观点的价值，也强调了当前工作流程的局限性;

尽管全球贡献者拥有集体实力，但高级数据科学问题仍然需要大量的试错、深厚的领域知识和大量的时间投入。

最近，基于大型语言模型（LLMs）的代理显着提高了各种任务的效率和有效性.这些智能体在自然语言处理、机器翻译以及复杂问题解决和推理等领域表现出了卓越的能力。不同的团队提出了几个基准来衡量人工智能代理在机器学习工程中的表现，包括 MLEbench等。

根据这些研究的报告结果，利用最新大语言模型的 state1 最先进的（SOTA）解决方案在机器学习工程方面仍然表现出低于标准的性能，远低于人类专家的能力。至关重要的是，数据科学项目通常取决于迭代洞察力——随着新知识的出现，探索、测试和完善方法的重复循环。即使两个项目具有相同的总体目标，数据分布、样本量或领域限制的变化也可能需要截然不同的路径来实现最佳解决方案。专家数据科学家使用每次实验迭代的反馈（无论是关于特征重要性、模型拟合度还是资源限制）来系统地调整他们的方法。由于每次迭代可能既昂贵又耗时，因此这些项目非常重视精心构思的探索策略，而不是依赖随机或暴力尝试。

鉴于这些挑战，我们提出一个成功的机器学习工程代理必须通过迭代探索来积极学习和适应。它应该综合领域见解，生成更深层次的假设，并根据部分发现而不是依赖单一的解决方案路径来完善其方法。

考虑到这些目标，本文介绍了 R&D-Agent，这是一个新颖的框架，旨在推动各行各业的数据驱动项目的更有效探索。通过提高研究探索的效率和开发的精度，R&D-Agent 渴望缩小自动化智能和专家级数据科学之间的差距，在最需要的地方加速创新。

特别是，R&D-Agent 的设计遵循两个关键原则：

1. 专门的研发角色：

该框架采用了两个专门的代理——“研究人员”和“开发人员”——它们对应于每个探索步骤中提供的两种类型的反馈：解决方案性能和执行错误信息。Researcher 代理处理性能反馈以推动有效探索（即创意生成），而 Developer 代理则利用执行日志迭代完善解决方案实现（即代码生成）。专门的代理专为特定任务而设计并配备相应的反馈，有助于更高效的探索。

2. 多轨互助：

框架支持并行运行多个探索轨迹，同时促进高级互助。

例如，您可以从现有检查点启动新的探索跟踪，或合并来自不同跟踪的检查点以生成更强大的复合解决方案。

这些能力不仅能够实现单个数据科学任务的并行探索，还可以增强单个探索轨迹的性能，从而显著提高整体探索效率。

值得注意的是，该框架的设计为整合不同的研究贡献提供了显着的灵活性。这种能力不仅提高了研究探索的效率，还提高了开发精度——所有这些都是通过我们的 R&D-Agent 框架提供的简单 API 调用实现的。

最终，这种协同作用会产生更强大的数据科学自动化系统。

该系统由两个主要部分组成：研究代理、开发代理。

研究代理将向开发代理提出研究思路，开发代理将实施该思路并测试所提出解决方案的性能。

2.1 专门的研发角色

分配专门的研发角色有助于解决一系列任务（包括机器学习工程）中的复杂问题。对于基于 LLM 的代理，同样的设计原则也适用。这种方法反映了团队通常如何为研究人员和开发人员等人员分配不同的角色，从而使我们能够利用既定的研发经验。反过来，该系统可以从其实践中收集与人类直觉和经验相匹配的知识和见解，甚至可以激发领域专家的灵感。然后可以将这些课程应用于新任务。另一方面，有各种具有不同优势的 LLM 基础模型。对于 2 一个想法（未能改进）一个想法（改进）提前停止运行进程 P#1 P#2 P#3 P#4 … … …可运行的解决方案开发和增强迭代调试高级反馈运行初始化学习 ⇒ 探索多样化初始化并行探索融合识别问题提出具体解决方案识别各种成功特征合并解决方案从不同设置开始研究代理开发代理知识完整数据集用于调试的采样数据集

R&D-Agent：通过 LLM 驱动的自动化研究、开发和演进，实现数据驱动的 AI 解决方案构建自动化

例如，像 O1 这样的模型非常擅长推理和提出创造性的想法，而像 GPT-4.1 这样的模型则擅长遵循指令和实施解决方案。通过为每个代理分配最适合其角色的模型，我们可以建立一个更有效的团队并取得更好的结果。研究机构专注于从经验中学习和探索想法。它向开发代理提出研究方向，分析收到的反馈，然后完善其想法。通过这种学习和探索的循环，研究代理不断改进并发现更好的解决方案。学习过程依赖于过去或外部经验。随着新知识的获得，它被收集并组织成一个知识库。该知识库有助于系统完善其想法或提出新想法。针对探索过程和搜索策略，提出了一种新颖的多迹点思想探索，实现了解空间的并行、多样和协同探索。这部分将在第 2.2 节中详细阐述。开发代理专注于开发和增强所提出想法的工程方面。提出的想法通常只涵盖解决方案的关键思想，并以自然语言表达为需要实现的高级描述。在许多情况下，重要的工程考虑因素没有得到充分解决（例如，解决方案必须在给定的资源预算内完成运行）;

开发代理开发和增强这些方面，以确保更完整、更实用的解决方案。为了提高开发效率，该过程分为两个阶段：1）开发可运行的解决方案和

2）运行解决方案。

在第一阶段，开发代理通过对采样数据集进行迭代调试来创建可运行的解决方案，类似于人类开发人员的工作方式。在第二阶段，开发代理在完整数据集上运行解决方案以评估其性能。在数据科学中，训练模型通常涉及大型数据集。通过让开发代理首先迭代较小的采样数据集，该过程变得更快、更高效。这种方法允许代理在完整数据集上运行解决方案之前快速测试和完善解决方案，从而大大加快整体开发速度。

2.2 多迹点创意探索

在复杂的数据科学和机器学习工程任务中，单一的线性探索路径通常不足以发现高质量的解决方案。R&D-Agent引入了多迹线探索机制，实现了解决方案空间的并行、多样、协同探索。

本节详细阐述了该设计背后的动机以及支撑它的建筑原则。动机和设计原则：自动化机器学习工程的基本挑战之一是由于单一配置的限制而存在收敛到次优解决方案的风险。探索跟踪本质上受到其初始化的限制，包括后端 LLM 的选择、提示结构、可用工具和支持知识库。这些约束可能会严重偏向探索路径，导致停滞或过早收敛。

为了解决这个问题，R&D-Agent 支持并行执行多个探索跟踪，每个跟踪都配置了异构参数。

其中包括提示策略、模型 3 后端、特定领域的工具、探索启发式方法，甚至知识范围的变化。

这种多样性增加了从不同角度发现有价值见解的可能性，并避免了统一假设所施加的狭窄搜索轨迹。除了多样性之外，R&D-Agent 还专为扩展而构建。其多迹系统可实现逻辑和物理并行性。每个跟踪都作为独立的研究代理运行，跨计算节点、容器或线程异步执行。

这种设计允许系统在分布式环境中水平扩展，从而最大限度地提高资源利用率并显着缩短解决方案时间。这种并行性在高复杂性任务中尤为重要，在这些任务中，暴力破解或单线程搜索在计算上会令人望而却步。

更重要的是，仅靠并行性是不够的。如果没有协调，多个痕迹可能会在冗余探索上浪费资源，或者坚持不希望的方向。为了解决这个问题，R&D-Agent 引入了交叉跟踪协作协议，用于控制跟踪如何交互、评估进度和做出自适应决策。每个跟踪都根据解决方案质量、新颖性、资源成本和错误弹性等指标维护性能配置文件。集中式模块将跟踪这些配置文件并做出动态决策，例如终止非生产性跟踪、生成具有修改配置的新跟踪或启动跟踪融合。

重要的是，跟踪还能够共享中间结果（例如有效的特征集或部分模型），从而创建一个集体学习过程，其中一条跟踪的成功会通知其他跟踪。

这种多样性、可扩展性和协作的原则性组合构成了 R&D-Agent 多跟踪探索的基础，推动了以数据为中心的研发的高效和稳健进展。

多跟踪融合以获得更强大的解决方案：多跟踪探索的一个基本成果是能够将多个跟踪的优势组合成一个高性能的解决方案——我们将这一过程称为多跟踪合并。

R&DAgent 不是孤立地选择最佳迹线，而是提供了一种机制，用于对来自几个有希望的迹线的部分结果进行组合整合。这种策略允许系统利用每个跟踪发现的互补优势。融合过程在数据科学工作流中以多个粒度运行。

例如，来自一条跟踪的特征生成技术可以与来自另一条跟踪的模型架构相结合，以及来自第三条跟踪的后处理启发式方法。每个跟踪的组件都根据实用性、新颖性、兼容性和性能影响进行评估和评分。然后使用可配置的融合策略（例如贪婪选择、加权投票或优化引导的融合）来组装最终解决方案。

R&D-Agent 的主要优势之一是其灵活且可定制的融合设计。用户可以在流程的每个阶段定义特定于域的控制和融合规则：

• 在跟踪演变过程中，用户可以根据性能阈值、使用时间或探索步骤指定提前停止和生成新跟踪的约束。

• 在信息交换过程中，用户可以确定跨跟踪共享哪些中间输出（例如，代码片段、错误日志、指标）。

• 在融合阶段，用户可以自定义组件兼容性规则、聚合函数，甚至可以插入学习的评分模型。这种灵活性确保 R&D-Agent 能够适应广泛的应用领域和工程偏好。

无论是在金融、医疗保健还是工业人工智能领域，该系统的可组合性和可扩展性都允许从业者根据特定领域的要求进行探索。通过支持模块化集成和交叉跟踪学习，Multi-Trace Merge机制不仅提高了最终的解决方案质量，还加速了收敛速度，增强了智能体的适应性。这种设计对于从孤立的、试错的自动化转向智能的、集体的研发探索至关重要。

3 实验

3.1 实验设置

应用数据科学中的一个典型场景是 Kaggle 竞赛。R&D Agent 利用其在 MLE-Bench 中的能力，评估代理解决涉及 GPU 中机器学习模型的设计、构建和训练的 Kaggle 挑战的能力。

我们将设置与基准保持一致，为 R&D Agent 提供 24 小时的虚拟环境、GPU、数据集和针对解决方案的竞争指令。我们提供给 R&D 代理的环境包括 12 个 vCPU、220GB RAM 和 1 个具有 Azure OpenAI 服务的 V100 GPU。实验目标总结为：

• 评估具有专门研发角色的研发能力

• 评估多轨迹在创意探索中的优势

3.2 结果

总结了不同代理在 MLE-Bench 上的表现，一个基准套件，按复杂性对 Kaggle 风格的比赛进行分类。

表格的每一行都对应一个特定的代理配置：下面部分的行展示了拟议的 R&D-Agent 的变体（两个使用 o3 进行研究，GPT-4.1 用于开发，另一个仅使用 o1-preview 用于这两个角色），而上面的部分报告了 AIDE o1-preview 的结果（江等人，2025 年），之前的公开最佳表现者。

这些列显示每个代理在竞争中的成功率（以百分比表示），分为三个复杂程度级别（低（精简版）、中级和高），以及所有任务的整体绩效。

基准测试的复杂性类别由经验丰富的 ML 工程师创建基本解决方案所需的估计时间定义：低（Lite）少于 2 小时，中 2-10 小时，高超过 10 小时（不包括模型训练时间）。

对于每个单元格，报告平均值和标准差，反映多次实验运行的变异性。

为确保统计可靠性，R&D-Agent o1-preview 的性能数字在 5 个随机种子和 R&D-Agent o3（R）+GPT-4.1（D）的 6 个种子上取平均值。

在这份简短的技术报告中，我们介绍了精选的关键结果，展示了最新型号上的最佳配置，以突出 R&D-Agent 的有效性和潜力。

结果表明，当使用相同的LLM后端时，R&D-Agent的性能比AIDE基线要好得多，特别是在低（精简）和高类别中。

这表明 R&D-Agent 中的基本系统设计与解决机器学习工程问题的方法更加一致，从而产生了更稳健和高质量的结果。

此外，我们还探索了一种使用后端 LLM 的混合策略，以实现满足现实世界要求的快速、经济高效的探索。

与其他未发表的实验结果相比，我们的方法——将 o3 和 GPT-4.1 结合起来，将 o3 分配为研究代理（利用其创造性的构思优势）并部署 GPT-4.1 作为开发代理（利用其卓越的指令遵循能力）——不仅满足现实世界的要求，而且产生的结果符合或超过我们最强的基线。

这证明了分配专门的研发角色的价值。

5 为了进一步评估RD-Agent的多迹探索和融合能力的有效性，我们在MLE-Bench设置下设计了一个专门的实验，明确利用了并行探索、信息交换和最终的迹线融合。在这个设置中，我们使用 o3 作为研究代理和 GPT-4.1 作为开发 Agen 的异构配置，允许每个配置专注于各自的优势——构思和执行。

我们启动了两个独立的探索跟踪，每个跟踪允许在相同的任务约束下运行长达 11 小时。在此阶段，每个跟踪都遵循不同的解决方案策略，以不同的提示、不同的知识库配置和不同的工具链为指导。为了增加多样性和减少冗余，我们实施了一个信息交换协议：在启动第二个跟踪之前，它被允许访问第一个跟踪的探索历史和失败案例。这确保了第二条跟踪可以避免重复无效的策略，而是专注于新的方向。在最后两个小时内，特工启动了融合阶段。在此阶段，它合并了：

• 代码模块（例如，特征工程、模型训练例程），

• 想法（例如，关于任务分析或模型设计的假设），

• 来自两个跟踪的性能和错误反馈。

这产生了一个复合解决方案，该解决方案保留了每次勘探中最有希望的元素，同时解决了不一致之处。在时间允许的情况下，系统继续迭代熔融溶液，直到达到 24 小时时间限制。最后，评估了所有有效的候选溶液，包括来自单个迹线和融合的候选溶液。代理根据综合评分函数选择最终提交，该函数考虑了验证性能、解决方案稳健性和过度拟合风险，这些都是从评分曲线和模型诊断中得出的。

在正在进行的工作中，我们正在探索其他设置，以进一步验证和扩展此策略。

这些策略包括：

• 替代的提前停止策略，例如根据停滞的性能而不是固定时间预算终止跟踪;

• 将领域知识注入其中一条迹线，模拟专家提示或历史见解来指导探索;

• 自适应融合时序，其中融合是根据跟踪进度而不是固定的时间分割动态触发的。

关于这些配置的消融研究目前正在开发中，并将在本报告的未来版本中发布。

Paragoger衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/10098

R&D-Agent：通过 LLM 驱动的自动化研究、开发和演进，实现数据驱动的 AI 解决方案构建自动化

摘要

1 引言

1. 专门的研发角色：