您当前的位置:钢材 > 钢绞线 > 市场分析

秋分小常识,秋分和平分秋色

来源:头条 作者: chanong
分享到
关注德勤钢铁网在线:
  • 扫描二维码

    关注√

    德勤钢铁网微信

在线咨询:
  • 扫描或点击关注德勤钢铁网在线客服

不知不觉,2023年秋分即将来临。 “中秋月,日正西,阴正东”,自然就产生了“阴阳相齐,昼夜相等,昼夜相等”的性质。冷热相等。”这里的秋分就像中性和谐的分水岭,一旦偏离,就变得肮脏,变得寒冷或炎热。理想的安全就是这样的公平状态。在这里,作者回顾了强化学**中反映安全问题的部分内容。首先,“安全”理念涉及应对丰富复杂的风险和问题。实际行动者在追求利润的过程中也面临着各种永久性风险和偶发性危机,处理时必须保持平衡。开放性和安全性是需要平衡的。不同的自然有机体需要获得经验以提高自己的生活水平,但现代社会的智能有机体却面临着来自社会关系以及自身和群体利益的挑战,需要系统地采取行动。现实世界中,国际关系日益复杂,相关问题不断出现。对于传统的以目标为导向的任务,避免收入的破坏性下降也可以被认为是一种保证。那么,如果我们从发展人工智能的角度来思考这个问题,我们如何教会人工智能来实现这样的目标呢?往往是一个值得关注的问题。作为一种跨学科的研究实践,它往往不仅表现为特定的研究目标,而且表现为一种态度或思维方式。

强化学**主要用于解决复杂的决策问题,可以在具有自然安全约束的不确定环境中学**以实现既定目标。强化学**的探索往往比传统的收益优先的观点从问题定义的角度增加了许多可能的成本函数,而这种成本和回报是同源、共生的关系。安全需求比它们所基于的特定优化目标更复杂。由于多个威胁项/损失可以同时变化,因此从单一优化目标的角度来看,整体性能是多目标且不稳定的。解决强化学**中的安全问题,最简单的思路就是采用传统的奖励形成思路(直接修改和添加奖励函数,将领域知识引入到模型算法中,同时考虑各个方面可能的改进。从优化你的奖励开始。采用添加拉格朗日项(比例参数)的方法,将损失乘以某个比例参数,作为负收入添加到收益函数中,经过折中(权衡)处理,转化为综合收益优化。总的来说,性任务获得了良好的收敛结果。这种简单的方法有两个固有的缺点。首先,为了保证勘探过程的相对安全,很难避免勘探过程中可能发生的不可逆动作,避免进入破坏性条件区域。在现实世界中,即使是最轻微的疏忽或违规也可能造成灾难性后果。例如,无法满足自动驾驶或医疗机器人等与人身安全密切相关的高精度要求项目部署后进一步适应和探索的需求。其次,多维损失函数的存在需要多个元素。拉格朗日乘数。使用双重方法很难解决优化问题。目前有两种可能的选择:将某些部分作为整体,单独对待其他部分,这涉及组合或反向优化的风险,以及利用斜率直接优化综合收益。整个东西。目前,更大的工艺更难以适应不同的成本约束规模。在实验中,主要的挑战出现在拉格朗日乘子的选择和学**率的选择上。很容易解释为什么一个因素太大。忽视的现象,即剩余部分按比例拆除。一个常见的现象是,如果约束比例太大,代理就不会移动,以防止成本增加。如果约束太低,则约束的效果将被忽略。动态更新拉格朗日乘子并非易事。如果你实施它,你可能会达到局部最小值。很好的问题。因此,在安全强化学**中,出现了几种考虑收益和成本划分的新技术,特别是提出收益和成本的组成部分,并将它们视为单独的优化目标。这并不意味着你不能在这个框架中将两者合二为一(事实上,在后续的处理过程中,很多方法仍然使用参数权重来实现权衡)。这意味着整个过程是明确执行的。考虑两个具体分配,而不仅仅是总体分配。一旦你决定了这个框架,你就可以使用不同的方法来解决它。代表作品之一是CPO1,它基于经典算法TRPO2,解决近似约束下的优化问题。 CPO参考TRPO的信任域方法,将需要满足的成本放入原来的KL散度约束项中,并进行综合权衡(从简单的策略间隙步长到策略间隙本身和安全步长) .)。我们考虑约束满足(constraint Saturation),并根据约束满足和收益将相应的更新动作解释为四种类型。探索经历。

未来,将会改进更多的算法来解决CPO方法的理论局限性。 CPO使用多种代理函数来代替目标和约束,这些方法包括非凸目标的凸近似和非凸安全约束。这会产生两个问题。原函数和凸近似之间没有理论解释。采用阶次或二次泰勒展开式逼近非凸目标和约束,不会引入误差,同时优化过程中涉及的FIM逆运算处理高维任务,计算开销增加。针对这两个问题,基于新替代功能的CUP3应运而生。它提供了一种在高维安全强化学**任务中的计算中不依赖凸近似的方法。实际效果是利用GAE 推导出更好的边界,同时也利用其自身的理论保证。更新过程在惩罚下最大化目标,然后使用素对偶方法求解对偶函数以满足约束,同时缩小最终策略和最大化性能的中间策略之间的差距。除了上面提到的不断演进的一套算法之外,我们目前已经开发了一套安全的强化学**算法如focops、CPPO-pid、RCPO4、pcpo、bcp-lag、可微梯度法,并且多个算法库正在不断涌现。实施、收集、总结。这包括最初的Safety Gym、Safety Control Gym以及北大团队推出的OmniSafe5。后者系统总结了现有的on-policy、off-policy、基于模型和无模型的分类算法,并可提供调用和参考。除上述内容外,到目前为止,安全问题和某些方面的约束指标大多是人为设定的,或者是审计人员根据现有经验提出的要求。在更加独立的场景中,代理会面临需要独立识别的场景,这需要对安全和事件发送逻辑的本质有深入的理解,考虑这方面的算法有很多。

居安思危是一种文化传统,对安全的考虑也可以被视为学术界与社会的真诚联系。尽管安全话题有多种表现形式和现实要求,但整体追求离不开公平、包容的出发点。安全不是一味追求特定指标的最大化,而是在优化流程中关注整体需求,“为所欲为,不超出规则”,这或许是一种深入理解和接受的理想机制。的概念。这种方法自动考虑了所有损坏的可能性。开放但有限且平等划分。第:章

[1] Achiam J、Held D、Tamar A 等人,约束策略优化,ICML 2017。

[2] Schulman J、Levine S、Moritz P 等人,信任区域策略优化,计算机科学,2015:1889-1897。

[3] Yang L,Ji J,Dai J,et al.Cup:用于安全强化学**的保守更新策略算法,arXiv预印本arXiv:2202.07565,2022。

[4] Tessler C、Mankowitz D J、Mannor S. 奖励约束政策的优化. ICLR(海报)2019。

[5] Ji J,Zhou J,Zhang B,et al.用于加速安全强化学**研究的OmniSafe: 基础设施,arXiv 预印本arXiv:2305.09304,2023。

文| 吴宇森

图| 不包括标签,取自互联网

责任编辑:德勤钢铁网 标签:

热门搜索

相关文章

广告
德勤钢铁网 |市场分析

秋分小常识,秋分和平分秋色

chanong

|

不知不觉,2023年秋分即将来临。 “中秋月,日正西,阴正东”,自然就产生了“阴阳相齐,昼夜相等,昼夜相等”的性质。冷热相等。”这里的秋分就像中性和谐的分水岭,一旦偏离,就变得肮脏,变得寒冷或炎热。理想的安全就是这样的公平状态。在这里,作者回顾了强化学**中反映安全问题的部分内容。首先,“安全”理念涉及应对丰富复杂的风险和问题。实际行动者在追求利润的过程中也面临着各种永久性风险和偶发性危机,处理时必须保持平衡。开放性和安全性是需要平衡的。不同的自然有机体需要获得经验以提高自己的生活水平,但现代社会的智能有机体却面临着来自社会关系以及自身和群体利益的挑战,需要系统地采取行动。现实世界中,国际关系日益复杂,相关问题不断出现。对于传统的以目标为导向的任务,避免收入的破坏性下降也可以被认为是一种保证。那么,如果我们从发展人工智能的角度来思考这个问题,我们如何教会人工智能来实现这样的目标呢?往往是一个值得关注的问题。作为一种跨学科的研究实践,它往往不仅表现为特定的研究目标,而且表现为一种态度或思维方式。

强化学**主要用于解决复杂的决策问题,可以在具有自然安全约束的不确定环境中学**以实现既定目标。强化学**的探索往往比传统的收益优先的观点从问题定义的角度增加了许多可能的成本函数,而这种成本和回报是同源、共生的关系。安全需求比它们所基于的特定优化目标更复杂。由于多个威胁项/损失可以同时变化,因此从单一优化目标的角度来看,整体性能是多目标且不稳定的。解决强化学**中的安全问题,最简单的思路就是采用传统的奖励形成思路(直接修改和添加奖励函数,将领域知识引入到模型算法中,同时考虑各个方面可能的改进。从优化你的奖励开始。采用添加拉格朗日项(比例参数)的方法,将损失乘以某个比例参数,作为负收入添加到收益函数中,经过折中(权衡)处理,转化为综合收益优化。总的来说,性任务获得了良好的收敛结果。这种简单的方法有两个固有的缺点。首先,为了保证勘探过程的相对安全,很难避免勘探过程中可能发生的不可逆动作,避免进入破坏性条件区域。在现实世界中,即使是最轻微的疏忽或违规也可能造成灾难性后果。例如,无法满足自动驾驶或医疗机器人等与人身安全密切相关的高精度要求项目部署后进一步适应和探索的需求。其次,多维损失函数的存在需要多个元素。拉格朗日乘数。使用双重方法很难解决优化问题。目前有两种可能的选择:将某些部分作为整体,单独对待其他部分,这涉及组合或反向优化的风险,以及利用斜率直接优化综合收益。整个东西。目前,更大的工艺更难以适应不同的成本约束规模。在实验中,主要的挑战出现在拉格朗日乘子的选择和学**率的选择上。很容易解释为什么一个因素太大。忽视的现象,即剩余部分按比例拆除。一个常见的现象是,如果约束比例太大,代理就不会移动,以防止成本增加。如果约束太低,则约束的效果将被忽略。动态更新拉格朗日乘子并非易事。如果你实施它,你可能会达到局部最小值。很好的问题。因此,在安全强化学**中,出现了几种考虑收益和成本划分的新技术,特别是提出收益和成本的组成部分,并将它们视为单独的优化目标。这并不意味着你不能在这个框架中将两者合二为一(事实上,在后续的处理过程中,很多方法仍然使用参数权重来实现权衡)。这意味着整个过程是明确执行的。考虑两个具体分配,而不仅仅是总体分配。一旦你决定了这个框架,你就可以使用不同的方法来解决它。代表作品之一是CPO1,它基于经典算法TRPO2,解决近似约束下的优化问题。 CPO参考TRPO的信任域方法,将需要满足的成本放入原来的KL散度约束项中,并进行综合权衡(从简单的策略间隙步长到策略间隙本身和安全步长) .)。我们考虑约束满足(constraint Saturation),并根据约束满足和收益将相应的更新动作解释为四种类型。探索经历。

未来,将会改进更多的算法来解决CPO方法的理论局限性。 CPO使用多种代理函数来代替目标和约束,这些方法包括非凸目标的凸近似和非凸安全约束。这会产生两个问题。原函数和凸近似之间没有理论解释。采用阶次或二次泰勒展开式逼近非凸目标和约束,不会引入误差,同时优化过程中涉及的FIM逆运算处理高维任务,计算开销增加。针对这两个问题,基于新替代功能的CUP3应运而生。它提供了一种在高维安全强化学**任务中的计算中不依赖凸近似的方法。实际效果是利用GAE 推导出更好的边界,同时也利用其自身的理论保证。更新过程在惩罚下最大化目标,然后使用素对偶方法求解对偶函数以满足约束,同时缩小最终策略和最大化性能的中间策略之间的差距。除了上面提到的不断演进的一套算法之外,我们目前已经开发了一套安全的强化学**算法如focops、CPPO-pid、RCPO4、pcpo、bcp-lag、可微梯度法,并且多个算法库正在不断涌现。实施、收集、总结。这包括最初的Safety Gym、Safety Control Gym以及北大团队推出的OmniSafe5。后者系统总结了现有的on-policy、off-policy、基于模型和无模型的分类算法,并可提供调用和参考。除上述内容外,到目前为止,安全问题和某些方面的约束指标大多是人为设定的,或者是审计人员根据现有经验提出的要求。在更加独立的场景中,代理会面临需要独立识别的场景,这需要对安全和事件发送逻辑的本质有深入的理解,考虑这方面的算法有很多。

居安思危是一种文化传统,对安全的考虑也可以被视为学术界与社会的真诚联系。尽管安全话题有多种表现形式和现实要求,但整体追求离不开公平、包容的出发点。安全不是一味追求特定指标的最大化,而是在优化流程中关注整体需求,“为所欲为,不超出规则”,这或许是一种深入理解和接受的理想机制。的概念。这种方法自动考虑了所有损坏的可能性。开放但有限且平等划分。第:章

[1] Achiam J、Held D、Tamar A 等人,约束策略优化,ICML 2017。

[2] Schulman J、Levine S、Moritz P 等人,信任区域策略优化,计算机科学,2015:1889-1897。

[3] Yang L,Ji J,Dai J,et al.Cup:用于安全强化学**的保守更新策略算法,arXiv预印本arXiv:2202.07565,2022。

[4] Tessler C、Mankowitz D J、Mannor S. 奖励约束政策的优化. ICLR(海报)2019。

[5] Ji J,Zhou J,Zhang B,et al.用于加速安全强化学**研究的OmniSafe: 基础设施,arXiv 预印本arXiv:2305.09304,2023。

文| 吴宇森

图| 不包括标签,取自互联网


市场分析