欧盟行为准则如何促进人工智能安全

欧盟刚刚发布了通用人工智能模型的最终实践准则 ,将《人工智能法案》的高层要求转化为具体的标准,这可能会使前沿人工智能公司的实践转向更安全的做法。

欧盟行为准则如何促进人工智能安全

在该准则的三个章节(版权、透明度以及安全保障)中,“安全保障”部分概述的要求标志着前沿人工智能安全领域的重大进步。该章节由主席 Yoshua Bengio、Marietje Schaake 和 Matthias Samwald 以及六位副主席起草,针对被认为构成系统性风险的通用模型,目前定义为经过超过 10^25 次浮点运算 (FLOP) 训练的模型。

10^25 的门槛可能会有所调整。10 ^25 的门槛涵盖了 当今所有前沿模型。该门槛可以随着技术的发展而调整。该准则经过了广泛的咨询过程,来自一千多名利益相关者(来自产业界、学术界和民间社会)在多轮磋商中提供了反馈。

企业有强烈的动机去遵守《准则》。遵守《准则》的公司将获得《人工智能法案》第53条第55条 的“合规推定”,该法案将于2025年8月2日生效。合规推定意味着,如果公司遵守《准则》的标准,监管机构将假定该公司遵守法律。这种激励措施极大地促使企业遵守先前的欧盟准则,例如《虚假信息行为准则》。事实上,一些公司(例如OpenAI)已经表示 将遵守《准则》,并认识到其在证明监管合规性方面的重要性。

欧盟行为准则如何促进人工智能安全

公司必须做什么

该准则要求制定全面的风险管理流程。公司必须预先确定可接受的风险水平,并通过风险评估和风险缓解措施将风险保持在这些阈值以下。公司必须在两份关键文件中记录其合规情况:一份框架(类似于现有的前沿人工智能安全政策)和一份模型报告,其中展示了该框架在每个模型中的应用情况(类似于模型卡)。

该过程遵循一个明确的循环:识别风险、分析当前风险水平、确定风险是否可接受、如果不可接受,则实施缓解措施并重复,直到风险达到可接受水平。

欧盟行为准则如何促进人工智能安全

风险评估和缓解的周期,来自实践守则

超越当前实践的关键进展

风险识别

CBRN、网络、失控和操纵。风险识别过程必须考虑多种风险来源,包括模型的功能、倾向(例如,产生幻觉的倾向)及其可供性(例如,其对工具的访问)。这要求公司考虑特定类型的风险,从而扩展了当前识别实践的范围。

该准则默认识别出四种系统性风险:

  1. 化学、生物、放射和核 (CBRN) 风险
  2. 网络攻击
  3. 失控风险
  4. 有害操纵风险

这标志着一项重大改进,因为目前还没有公司框架 能够全面涵盖所有这些风险类别。例如,Anthropic 的“负责任的扩展政策” 缺乏针对网络攻击风险的全面风险管理,并且完全没有解决操纵风险,而 Meta 的框架 则完全忽略了失控风险。

风险分析

然后,必须分析“风险识别”中的风险。风险分析必须包括:

  • 与模型无关的信息,包括预测
  • 最先进的模型评估
  • 风险建模
  • 风险评估量化潜在损害的概率和严重程度

Want to contribute to the conversation? Pitch your piece.

风险建模和评估代表了当前实践的重大进步。

《准则》将风险建模定义为“一个结构化流程,旨在明确模型中系统性风险可能实现的途径”,它是 风险评估流程的基础部分。风险建模在当前的公司实践中常常被忽视 ,它通过明确模型中风险可能如何产生,为模型评估和必要的风险缓解措施提供信息。

风险评估要求公司以定量、半定量或定性的方式明确指出“系统性风险损害的概率和严重程度”。当前的实践通常仅依赖于将模型评估结果与能力阈值进行比较,并且仅关注模型能力的评估,而非实际风险的评估。

通过风险等级进行预先承诺

公司还必须预先定义风险等级,这些等级既可衡量,又能根据模型能力进行定义。这意味着组织必须提前决定哪些能力水平是不可接受的,而不是在模型部署时自行决定。

透明度和外部验证

公共透明度要求。 公司必须发布其模型报告和框架的汇总版本,包括“系统性风险评估结果以及已实施的安全措施和安保缓解措施的高级描述”。这有助于公众监督和同行评审安全实践。虽然完全透明(删除危险信息)是理想状态,但这些汇总报告较之现行做法已有显著改进。一些公司尚未发布任何安全框架提供的模型卡不一致,许多公司甚至完全忽略了安全评估。

外部评估要求。 “除了内部模型评估外,签署方还将确保由具备足够资质的独立外部评估人员进行模型评估。”这项要求解决了长期以来企业自行评估安全作业的担忧。

网络安全和事件报告

安全计划。公司必须概述“安全目标”, 以帮助评估安全措施是否充分。该目标必须明确其安全缓解措施旨在防御哪些威胁行为者,包括非国家外部威胁、内部威胁以及其他预期的威胁行为者。

事件报告系统。 公司必须跟踪并向欧盟委员会和各国主管部门通报严重事件,以便监管机构实时了解不断变化的风险状况。“严重事件”包括死亡、对身心健康的严重损害、关键基础设施的不可逆转的破坏,以及重大网络安全漏洞,例如模型权重泄露或网络攻击。初始报告必须在2至15天内提交,具体取决于事件的严重程度,并需要进行后续跟进,直至事件得到解决。

差距和执法挑战

该准则不涵盖内部部署的模型。该准则为其提供合规指导的《人工智能法案》仅规范投放到欧盟市场的模型。专门为内部人工智能研发训练和使用的模型不在该准则的范围内。这 对于失控场景来说是一个关键的缺口,因为内部部署的模型是重大风险来源。

公司保留自由裁量权。公司可以定义自身风险管理方法的关键要素,例如如何划分风险等级或确定哪些风险属于可接受风险。虽然监管机构设定的标准化阈值可以提高一致性,但鉴于人工智能风险管理实践尚处于起步阶段,这种规范性方法仍然难以适用于所有风险。

然而,未来的法规应该努力建立明确的可接受风险阈值,效仿其他高风险行业的模式。例如,美国联邦航空管理局 ( FAA) 将灾难性事故的可接受频率设定为每十亿飞行小时少于一次,相当于每114,155飞机年发生一次灾难性事件(其中灾难性事故被定义为“阻碍持续安全飞行和着陆的故障情况”) 。

执行限制。 美国政府已开始 抵制该准则,而企业也在加大施压。最近的一个例子是46位科技公司首席执行官致信 欧盟,要求暂停通用人工智能模型的义务两年。(然而,一些公司已表示将遵守该准则,例如OpenAI。)因此,该准则的成功在很大程度上取决于欧盟委员会在执行方面投入的政治意愿和资源。

财务处罚限制。 最后,目前尚不清楚违反 《准则》的“最高可达全球年营业额的3%或1500万欧元(以较高者为准)”的罚款是否足以震慑违规行为。许多前沿人工智能公司目前的支出 远远超过其收入,因此这些罚款可能成为可控的经营成本。

对全球人工智能治理的影响

总体而言,《实践准则》代表着朝着确保人工智能开发更安全的正确方向迈出了重要一步。从风险管理的角度来看,它显著改进了当前的行业实践。通过要求明确的风险建模、实施外部评估以及强制公开透明,《准则》弥补了现有自愿框架的诸多不足。

其影响力可能会超越欧洲。 在全球运营的公司可能会发现,统一实施这些标准比为不同市场制定单独的流程更容易。此外,新法规通常会从现有框架中汲取灵感。尽管《准则》并非完美无缺,但它为全球人工智能安全法规提供了蓝图,并为未来政策的制定奠定了监管基础。欧洲和全球法规都应在此基础上进行扩展,以解决上述局限性。此外,虽然正式监管很重要,但企业的自愿承诺历来在推进整个领域的安全实践方面发挥着宝贵作用,应与这些监管工作一起继续推进。

Paragoger衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/9887

(0)
上一篇 3天前
下一篇 2025-01-10 11:00 上午

相关推荐

发表回复

登录后才能评论
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn