抽象
金融市场对资产回报预测构成根本性挑战它们的高维度、非平稳性和持续的波动性。尽管大型语言模型和多智能体系统的进展,当前定量研究管道的自动化程度有限、可解释性弱,以及因素挖掘和模型等关键组件之间的碎片化协调创新。本文提出量化金融研发代理,简而言之RD-Agent(Q),第一个以数据为中心的多代理框架,旨在自动化
通过协调的量化策略全栈研发因子模型协同优化。RD-Agent(Q) 将量化过程分解为两个迭代阶段:动态设置目标对齐提示的研究阶段,根据领域先验制定假设,并将其映射到具体任务中,以及使用代码生成代理 Co-STEER 的开发阶段,以实现特定于任务的代码,然后在实际市场回测中执行。这两个阶段通过一个反馈阶段连接起来,该阶段彻底评估实验结果并为后续迭代提供信息,具有多臂用于自适应方向选择的 Bandit 调度程序。根据经验,RD-Agent(Q)实现比经典因子库高出 2× 的年化回报率因素减少 70%,并且优于最先进的深度时间序列模型
在真实市场上。其联合因子-模型优化提供了强大的平衡在预测准确性和策略稳健性之间。我们的代码可在以下网址获得:
https://github.com/microsoft/RD-Agent。
1 介绍
金融市场构成高维、非线性动态系统,其回报级数表现出沉重的尾部、随时间变化的波动性和复杂的横截面依赖性。这些特征意味着资产价格同时受到宏观因素、微观结构信号、和行为反馈,使得预测比传统时间更具挑战性系列。在数据呈指数级增长以及计算能力和人工智能突破的推动下技术,资产管理行业正在从体验驱动向数据驱动过渡范式。
在这种转变中,量化投资正在成为主流,因为:
(i) 高效通过数据-因素-模型循环进行决策,
(ii) 具有集成风险控制的可重复执行,
(iii)在策略趋同性日益增强的情况下,精准追求超额收益
抽象
金融市场对资产回报预测构成根本性挑战它们的高维度、非平稳性和持续的波动性。尽管大型语言模型和多智能体系统的进展,当前定量研究管道的自动化程度有限、可解释性弱,以及因素挖掘和模型等关键组件之间的碎片化协调创新。本文提出量化金融研发代理,简而言之RD-Agent(Q),第一个以数据为中心的多代理框架,旨在自动化
通过协调的量化策略全栈研发因子模型协同优化。RD-Agent(Q) 将量化过程分解为两个迭代阶段:动态设置目标对齐提示的研究阶段,根据领域先验制定假设,并将其映射到具体任务中,以及使用代码生成代理 Co-STEER 的开发阶段,以实现特定于任务的代码,然后在实际市场回测中执行。这两个阶段通过一个反馈阶段连接起来,该阶段彻底评估实验结果并为后续迭代提供信息,具有多臂用于自适应方向选择的 Bandit 调度程序。根据经验,RD-Agent(Q)实现比经典因子库高出 2× 的年化回报率因素减少 70%,并且优于最先进的深度时间序列模型
在真实市场上。其联合因子-模型优化提供了强大的平衡在预测准确性和策略稳健性之间。我们的代码可在以下网址获得:
https://github.com/microsoft/RD-Agent。
1 介绍
金融市场构成高维、非线性动态系统,其回报级数表现出沉重的尾部、随时间变化的波动性和复杂的横截面依赖性。这些特征意味着资产价格同时受到宏观因素、微观结构信号、和行为反馈,使得预测比传统时间更具挑战性系列。在数据呈指数级增长以及计算能力和人工智能突破的推动下技术,资产管理行业正在从体验驱动向数据驱动过渡范式。
在这种转变中,量化投资正在成为主流,因为:
(i) 高效通过数据-因素-模型循环进行决策,
(ii) 具有集成风险控制的可重复执行,
(iii)在策略趋同性日益增强的情况下,精准追求超额收益

图1示了现代定量研究管道。
Microsoft 的开源项目Qlib [9] 简化了数据处理和回测,减轻了大部分重复性工程负担。因此,这种转变将定量研究的重点转向其核心组成部分:因子挖掘和模型创新。
首个自动化量化研发框架RD-Agent量化金融管道
也是定量研究的关键方面。同时,特定于种群的模型集成了时间具有横截面依赖关系的事件序列
通过图神经网络捕获种群间相互作用。最近大型语言模型 (LLM) 和多智能体系统进一步扩展了通过以下方式设置的信息从新闻和社交网络中提取信号,并模拟对冲基金和金融专家之间的合作。尽管取得了这些进步,定量研究
仍然面临三个关键限制:
(i) 有限自动化:当前的工作流程需要广泛的人为干预假设生成,编码和调整,造成缓慢的迭代和偏差,此外,半自动化系统无法实现快速变化的市场所需的响应能力和可扩展性。
(二) 可解释性差:
现有的基于 LLM 的代理通常直接通过语言交互产生交易信号,而无需接地因素构造或透明的模型逻辑,因此容易产生幻觉。这阻碍了实时交易的采用,在实时交易中,可解释性和风险控制至关重要。
(三) 碎片化
优化:量化流水线横跨数据处理、因子挖掘、模型训练和评估,然而,目前的方法缺乏系统的任务分解或代理级协调。这孤立结构限制了跨级反馈和联合性能增益。

图 2:RD-Agent(Q) 的概念图。
RD-Factor 和 RD-Model 模块表示因子和模型的完整优化循环发展。
为了应对这些挑战,我们建议RD-Agent(Q),第一个以数据为中心的多代理自动化全栈定量的框架
通过协调因素制定战略——模型协同优化(图 2)。我们的框架将定量研究分解为五个跨越两个核心阶段的阶段:研究和发展。在研究阶段,规格单元动态生成目标对齐来自优化目标的提示。这然后,综合单元从先前的结果中发展一个特定于任务的知识森林并生成新的因子或模型假设,然后将其映射到可执行任务。发展中阶段,我们引入了 Co-STEER,这是一种利用思维链推理和基于图的知识存储。实施单元将假设转换为代码,而验证单元运行真实市场回测。分析单元使用统一的指标进行评估,并使用多臂 Bandit 调度器自适应选择下一个优化方向。这形成了一个封闭假设-实施-验证-反馈循环,支持持续的、目标导向的策略的演变,标志着向智能和自主定量研究迈出了一步。
我们的主要贡献如下:
• 透明的端到端自动化:RD-Agent(Q) 是第一个以数据为中心的多代理定量金融框架,通过可验证的输出实现整个研发过程的自动化增强可解释性并降低幻觉风险。
• 高性能研发工具:在研究阶段,RD-Agent(Q) 模仿分析师的工作流程通过结构化的知识森林,能够生成连贯、高质量的假设。在开发阶段,我们提出了 Co-STEER,这是一种专为以数据为中心的任务,提高因子和模型代码生成的准确性和效率。
• 强大的实证表现:在真实股票市场的广泛实验表明,在成本低于 10 美元,RD-Agent(Q) 的 ARR 比基准因子高出约 2×库,同时使用的因子减少了 70% 以上。它还超越了最先进的深度时间序列在较小的资源预算下进行模型。其交替因子-模型优化进一步实现预测准确性和策略稳健性之间的出色权衡。
2 RD Agent (Q)
基于图1和附录B中正式的定量研究管线结构,提出RD-Agent(Q),一个以数据为中心的多智能体框架,用于具有自动化的迭代因子模型研发,可解释性和效率。我们将量化过程分解为五个紧密耦合的单元:
规范(场景定义)、综合(想法生成)、实现(代码开发)、验证(回测)和分析(结果评估和任务调度)
在统一输入下——输出约束,这些单元在模拟试错的闭环循环中运行人类定量研究人员的过程。与手动工作流不同,RD-Agent(Q) 连续运行自主地支持因子和模型组件的动态协同优化。此外,每一轮的假设、实现和结果都会被持久存储,从而使随着时间的推移,知识的积累和越来越明智的决策。

2.1 规格单位
规范单元作为 RD-Agent 的顶级组件,动态配置下游模块的任务上下文和约束,确保设计、实现、和评估。它沿着两个轴运行:
❶ 理论 ➙ 编码先验假设、数据模式,并将协议输出到结构化规范中;
❷ 实证 ➙ 建立可验证的执行环境和用于回测的标准化接口,保护代理免受低级预处理和基础设施问题。通过将形式定义与统一接口相结合,该模块减少了歧义并提高了组件之间的协调效率。我们将规范单元形式化为元组 S = (B,D,F,M),
其中 B 对背景进行编码关于因素或模型的假设和先验知识;
D 定义市场数据接口;
F 预期输出格式(例如,因子张量或返回预测);
和M表示外部执行环境(例如,基于 Qlib 的回测)。在此表述下,任何候选因子或者模型fθ必须满足以下条件: ∀,x ∈ D,;fθ(x) ∈ F和fθ在M中可执行。这强制了与标准化输入/输出结构的兼容性,并确保后续模块可以在共享的作上下文中与 fθ 交互,从而支持一致性和跨协作工作流程的可重复性。
2.2 合成单元
综合单元通过根据历史生成新的假设来模拟类人推理实验。每个优化作都定义为 ∈ {factor, model}。对于当前作
该单元通过选择相关历史实验的子集来构建实验轨迹。第 t 个实验用 et = {ht, ft} 表示,其中 ht 是假设,ft 是对应的来自分析部门的反馈。一组当前性能最佳的解决方案被维护为索塔。

(1)这些子集被传递给生成映射函数 G(作为研究的核心,模仿理论先验和经验反馈的综合,生成有效且新颖的
假设)产生下一个假设:h(t+1) = G(H(a)t ,F(a)t )。
在实践中,该模块依赖于在结构化模板和标准化格式上,以确保假设都是可执行的并有科学依据。例如,在因子生成任务中,h(t+1) 不仅包含最新的反馈以及当前的市场状况和特定领域的经济理论,确保因子的有效性和可观察性。为了促进多样性和渐进式改进,该生成机制根据绩效反馈调整其策略。如果 F(a)t 表示成功,下一个假设的复杂性或范围增加;否则,它会进行结构调整或引入新的变量,从而构成一个想法森林。这种自适应机制使
探索新方向的智能体,同时保持对经验结果的响应能力,支持迭代和有效的战略制定。最后,将假设 ht 实例化为具体任务 tt,下游实现模块用于代码级实现。因子假说 hfactort ,由于他们的异质性和潜在的相互作用,可以分解为多个子任务tfactor。
2.3 实施单位
执行股负责用于翻译可执行文件由合成单元功能法典。它构成了复杂的开发RD-代理(Q)。为了支持这一点工艺,我们设计了专门的代理,Co-STEER,量身定制因子和模型开发定量研究。如图所示

在图 4 中,Co-STEER 集成了系统调度和确保代码生成策略实施的正确性、效率和适应性。
在因子开发中,任务通常表现出结构依赖性。为了解决这个问题,我们引入了鼓励推理可追溯性的引导式思维链机制。具体来说,代理构造有向无环图 (DAG) G = (V, E) 来表示任务依赖关系,其中边从任务 A 到任务 B 意味着由于知识流或复杂性,A 应该先于 B。一个拓扑排序 πS =
t(1), . . . , t(n)
然后派生以指导任务执行。调度是适应的。不断整合先前执行的反馈以改进计划:重复任务失败表明复杂性增加,促使优先考虑更简单的任务以增强知识积累和执行成功。
4
对于每个任务 tj ,实现代理 I 基于两者生成其相应的代码 cj任务描述和当前知识库,因此 cj = I(tj ,K)。此过程包括任务解析、代码合成和细化、执行和验证。评估代码 CJ 的正确性和性能。知识库 K 起着核心作用
通过记录成功和失败的任务代码反馈三元组:K(t+1) = K(t) ∪ {(tj , cj , fj)},其中
fj 表示执行任务 tj 后收到的反馈。通过知识转移机制,实施代理还可以从基于知识库的知识库中检索类似任务的解决方案在电流反馈f(t)上,从而提高代码生成的效率和成功率对于新任务: cnew = arg maxck∈K similarity(tnew, tk) ·ck。
这种反馈驱动的优化循环允许实现单元不断增强代码质量和效率,促进定量研究组件的快速和稳健开发。
2.4 验证单元
验证单元评估由实施单位。对于因素,首先应用重复数据消除过程来过滤掉冗余通过计算信号与现有 SOTA 因子库的相关性。
最大值≥ 0.99 被视为冗余并排除在外。因子过滤后,其余候选者与当前 SOTA 模型(或基线模型,如果没有)相结合可用)并通过 Qlib 回测平台进行评估。这使得性能在现实的市场条件下进行评估。对于模型,过程是对称的:每个候选者模型与当前 SOTA 因子集配对,并通过相同的回测管道进行评估。因此,验证单元提供了一个集成的自动化管道,支持标准化在生产级市场模拟环境中评估新型组件。
2.5 分析单元
分析部门既是 RD-Agent(Q) 中的研究评估员,也是战略分析师框架。每轮实验后,它都会对当前假设HT、具体任务TT和实验结果RT。如果实验被判断为了在动作类型 at 下优于 SOTA,则其结果将添加到相应的 SOTA 集中
SOTA(在)。然后,该单元诊断故障策略并生成有针对性的改进建议。反馈 ft 被传递给综合单元,以指导未来假设的制定。值得注意的是,分析单元使用当前实验的本地视图运行,而综合该单元在整个实验历史中保持全球视角。它们的交互使平衡短期响应与长期探索的闭环系统,支持跨研究设计、策略实施、验证和深度分析的自动化迭代。在每一轮分析之后,分析单元进一步确定是否优先考虑因子为下一次迭代进行细化或模型优化。为了最大限度地提高性能增益,此决定被表述为上下文双臂强盗问题,并通过线性汤普森抽样解决(有关详细算法,请参见附录 A.2)。具体来说,在每轮 t 时,系统观察到R8 ∈ 8 维性能状态向量 xt,对当前的关键评估指标进行编码
策略。动作空间为 A = {factor, model},对应于两个可能的优化路径。为了评估上下文 xt 下每个动作的预期收益,我们采用线性奖励函数 r = w⊤xt,其中 w 反映了每个指标的相对重要性。单独的贝叶斯每个动作都保持线性模型,高斯后验编码不确定性奖励系数。在每一步中,系统都会从每个后方和计算相应的预期奖励。执行具有最高采样奖励的作。
在观察实际改善后,更新所选手臂的后部。通过这种上下文Thompson采样机制RD-Agent(Q)自适应地平衡了探索和利用,实现跨迭代的稳健性能改进。
3 实验设置
➥数据集。继之后,我们使用沪深300数据集,涵盖300只A股大盘股。
中国市场。时间跨度分为训练(2008 年 1 月 1 日至 2014 年 12 月 31 日)、验证(1 月
2015 年 1 月 1 日至 2016 年 12 月 31 日)和测试(2017 年 1 月 1 日至 2020 年 8 月 1 日)。我们在以下情况下评估 RD-Agent(Q)
三种配置: ➊ RD-Factor将预测模型固定为LightGBM [39]并优化
从 Alpha 20 3 开始的因子集; ➋ RD-Model 将输入因子设置为 Alpha 20 并搜索为了更好的模型; ➌ RD-Agent(Q)联合优化因子和模型分量。
➥基线。在因子水平上,我们与 Alpha 101 [40]、Alpha 158 [41]、Alpha 360 [42] 进行比较,
和AutoAlpha [43]。
在模型层面,我们包括机器学习模型(Linear、MLP、
LightGBM[39]、XGBoost [44]、CatBoost [45]、DoubleEnsemble [46])和深度学习模型
(GRU [22]、LSTM [23]、ALSTM [47]、Transformer [48]、PatchTST [49]、iTransformer [50]、
曼巴[51]、TRA[37]、MASTER[38]、GATs[52])。附录 C.3 提供了更多详细信息。
➥ 评估详情。我们使用两个指标类别评估 RD-Agent(Q):
因素预测指标,包括信息系数(IC)、IC信息比(ICIR)、秩IC和秩ICIR;
以及策略绩效指标,包括年化回报率(ARR)、信息比率(IR)、最大回撤 (MDD) 和 Calmar 比率 (CR)。我们遵循每日多空交易策略基于预测的收益排名,有仓位更新、持仓留存规则、现实交易成本。
4 实验分析
➥ 主要结果分析。表 1 报告了基线模型和 RD-Agent 的性能框架,表明 RD-Agent 始终优于所有基线
在预测和战略指标方面。
➊ RD-Factor(因子优化)。当仅对因子空间进行自适应优化时,将RD-FactorGPT-4o 和 RD-Factoro3-mini 超越静态因子库(例如 Alpha 158/360),具有以下特点:使用更少的手工制作,更高的 IC(高达 0.0497)和显着提高 ARR(高达 14.61%)因素。这证明了 RD-Agent(Q) 中的动态假设细化和因子筛选与来自固定的高维因子集相比,导致更多信息更多的信号。
➋ RD 模型(模型优化)。对于固定因子的模型优化,RD-Modelo3-mini超过所有基线,并在 Rank IC (0.0546) 和 MDD (-6.94%) 上取得最佳性能。机器学习模型明显滞后,凸显了它们在捕捉金融噪音方面的局限性
和非线性模式。而通用深度学习架构(GRU、LSTM、Transformer)提供适度的预测指标,但其战略绩效仍然疲软,表明存在差距在特征提取和可作的回报之间。令人惊讶的是,时间序列预测模型(例如 PatchTST、Mamba)在这两个方面都表现不佳,表明两者之间存在根本性不匹配标准序列预测和股市动态。相比之下,专业股票预测
模型(TRA、MASTER)在战略指标方面表现出色,但在预测能力方面落后,突出了鲁棒性(低MDD、高IR)和精度(高IC)之间的权衡。这些结果表明自适应模型配置(以自动假设评估为指导)产生更稳健且风险敏感的预测结构,而不是机器学习和手工制作的 DL 架构。
➌ RD-Agent(Q)(联合优化)。通过协同优化因子和模型,RD-Agent(Q)o3-mini整体性能最高:IC 为 0.0532,ARR 为 14.21%,IR 为 1.74。这些改善大大超过最强基线方法(例如 Alpha 158、TRA)的改善
边缘。这表明,因素和架构的联合细化可以解锁互补性改进,实现可扩展且一致的 alpha 建模。
➥ 研究部分的分析。为了评估RD-Agent(Q)的研究动态,我们分析RD-Factor中因子假说的演化,重点关注其探索之间的平衡(多样化的想法产生)和开发(本地细化)。
该方法包括三个步骤:
(i) 文本嵌入:将迭代 t 时生成的假设 ht 编码为固定维向量ht 使用 Sentence-BERT [53];
(ii) 相似性矩阵:计算成对余弦相似度以形成对称矩阵 S ∈ [0, 1]T×T ;
(iii) 分层聚类:将聚集聚类应用于对相似的假设进行分组,并重新排序 S 以进行块结构。
来自 Alpha 158 的 320 个经过实证验证的因素,涵盖动量、价值、质量和增长。
沪深300成分股数据集上所有模型的实验结果,包括因子预测指标和策略绩效指标。视觉提示指示排名组:最佳、第二好、好 (3-8)、平均 (9-14)、差 (15-20) 和更差 (21-26)。

图 5:因子假设的余弦相似度热图RD-Factor 中的实验循环。黑方框标记了相似想法的集群;红色指数表示那些被选入 SOTA 因子库的。

图5揭示了三种勘探模式:
➊ 局部细化后定向shift:对角线块(例如,试验1–6, 7–11) 表明 RD-Factor概念内的多步骤细化移动方向前螺纹,平衡深度与新奇。
➋ 战略重新审视:试验 26 个具有早期试验的集群12-14,证明智能体的能力重新审视并逐步完善有前途
早期假设。
➌ 多种路径产量协同作用:36 项试验中的 8 项被选入最终的 SOTA 集,跨越 6 个集群中的 5 个。
这表明探索多个方向产生互补信号共同加强最终因素图书馆。这种细化-转移-重用模式的基础高效的深度搜索和广泛的概念覆盖,使施工能够紧凑、多样化、高性能
因子库。

5 相关工作
定量研究中的传统方法。量化策略传统上依赖于关于资产定价理论中的人为因素,例如价值和动量 [10, 11]。而
这些固定信号是可解释的,但在适应不断变化的制度方面往往缺乏灵活性。克服这些局限性、符号回归和遗传编程(GP)方法[14,54]自动化通过进化复杂的非线性表达式进行因子挖掘。延迟运算符 [13] 和纵者突变与修剪[55]产生更多样化和有效的信号。强化学习(RL)方法将因子分配重构为顺序决策,直接优化夏普或卡尔马比率15,56]。Andre等[16]通过吉利克雷策略与KL模型因子权重正则化,实现稀疏和自适应策略。然而,RL 方法通常缺乏鲁棒性
在政权转变下(例如,2020年熔断[57]),并且仍然难以解释。在模型方面,ARIMA [58] 和指数平滑 [59] 等早期方法与噪声、高维数据。经典机器学习方法(例如,SVM [19]、随机森林 [20])提高鲁棒性,但仍需要手动特征工程。深度学习模型,如 LSTM[60]和Transformers[61]已被用于捕获长期和横断面的依赖关系[27, 62].在此基础上,出现了专门的时间序列神经网络。PatchTST [63] 将输入分段为本地补丁,而 iTransformer [64] 重新映射变量令牌模型多元结构的关系。MASTER[65]等特定领域的模型进一步纳入了市场层面的动态,用于改进财务预测。然而,因子和模型管道仍然孤立、依赖专家且缺乏灵活性,限制了波动市场中的可扩展性。大语言模型驱动的金融代理。大型语言模型 (LLM) 为以下方面提供了新的机会由于其强大的推理和抽象能力,实现金融研究的自动化。最近研究探讨了它们在从金融文本[66,31]中提取预测信号、生成因素方面的应用解释 [30],并实现多模态市场分析 [33]。基于 LLM 的并行进步多智能体系统(例如AutoGen [67]、AutoGPT [68])为以下系统提供了协调框架
复杂的决策。在金融领域,FinAgent [33] 和 TradingAgents[34] 等系统使用基于角色的事件提取或项目组合更新等子任务的代理。然而,大多数现有的努力专注于狭隘的子任务,严重依赖语义信号,容易产生幻觉,难以解释,也难以复制。此外,它们缺乏联合因子模型的机制优化或工作流程集成,限制了它们在现实世界定量系统中的有效性。
6 结论
我们提出了RD-Agent(Q),这是一个LLM驱动的框架,用于在量化金融。通过将研究分解为模块化组件并集成基于 bandit的调度程序,它支持在固定计算预算下进行高效、自适应的迭代。实证RD-Agent 在信号质量和策略性能方面均优于基线,具有很强的成本效益和普遍性。它的模块化还能够适应现实世界的环境。然而当前的框架完全依赖于大语言模型的内部财务知识。今后的工作可能会有所改善数据多样性,纳入领域先验,并实现在线适应不断变化的市场制度。
7 免责声明
RD-Agent(Q) 框架和相关代码的用户应准备自己的财务数据并独立评估和测试生成的风险 使用中的因素和模型本身场景。必须谨慎、彻底地使用代理生成的代码、数据和模型检查它们。RD-Agent(Q) 框架不提供财务意见,也没有设计用于取代合格金融专业人士在制定、评估和批准财务方面的角色产品。RD-Agent(Q) 框架的输出并不反映 Microsoft 的意见。同时也不反映Ramendeus Limited的意见。我们仅作翻译。
Paragoger衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/10102