-
小泽圆电影下载 北大领衔,多智能体强化学习计算登上Nature子刊
发布日期:2024-09-07 08:55 点击次数:65
AIxiv专栏是机器之心发布学术、手艺推行的栏目。畴昔数年,机器之心AIxiv专栏袭取报谈了2000多篇推行,掩盖寰球各大高校与企业的顶级实验室,灵验促进了学术调换与传播。淌若您有优秀的责任念念要共享,接待投稿或者相关报谈。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com近日小泽圆电影下载,由北京大学东谈主工智能计算院杨耀东课题组牵头完成的计算效果 ——「大范围多智能体系统的高效强化学习」在东谈主工智能顶级学术期刊 Nature Machine Intelligence 上发表。
论文第一作家是北京大学东谈主工智能计算院博士生马成栋,通讯作家为东谈主工智能计算院杨耀东助理教悔。东谈主工智能计算院多智能体中心李阿明计算员和伦敦国王大学杜雅丽教悔为共同第一作家。这一效果初度在大范围多智能体系统中收场了高效的去中心化协同侦察和有辩论,权臣提高了东谈主工智能有辩论模子在大范围多智能体系统中的扩张性和适用性。
四色网站论文集中:https://www.nature.com/articles/s42256-024-00879-7
在大范围多智能体系统中收场高效的可扩张有辩论是东谈主工智能鸿沟发展的遑急指标之一。多智能系统主要以普遍的智能体交互数据为基础,行使大皆野心资源启动每个智能体学习如何与其他智能体合作践诺复杂任务,其中枢范式是多智能体强化学习。连年来,这一鸿沟得到了权臣的施展,出生了以游戏东谈主工智能为代表的一系列应用。现阶段两种主要的学习范式是中心化学习和孤独学习,中心化学习条目每个智能体皆具有全局不雅察才智,这大幅度增多了算法复杂性和通讯老本,裁汰了在大范围系统中的可扩张性,而孤独学习诚然裁汰了系统和算法的复杂性,但学习历程频频不踏实,导致有辩论性能较差。
值得重视的是,在游戏之外的愈加着实的场景中,皆存在一些客不雅的交互截止和不得不酌量老本成分,这使得现存程序难以扩张到大范围着实寰球多智能体系统中。一个浅易的例子是,当在城市交通系统中限制交通讯号灯时,正常的大范围通讯操作容易增多功率损结怨被信号滋扰的概率,况兼野心复杂性将跟着交通灯数目的增多而指数级增多。因此,有必要想象不详在有限数据和客不雅通讯拘谨下,将有辩论才智扩张到包含大皆智能体的复杂着实系统中的多智能体强化学习程序。
这项计算恰所以此起点,裁汰了现存多智能体学习程序关于全局通讯和大皆交互数据的依赖性,收场了强化学习算法在复杂的大范围系统中的平淡部署与高效扩张,朝着可扩张到大范围系统的有辩论范式迈出了遑急一步。
图 1,中心化学习和孤独学习的分歧及该计算的起点和所触及到的采集化系统类型
在这项计算中,计算团队对大范围多智能体系统进行了以智能体为单元的能源学特点的解耦,将智能体之间的关系描摹为一种拓扑诱惑结构下的采集化关系,其中包括线状,环状,网状等多样同构 / 异构节点,裁汰了系统责罚的复杂性。在此之前,也有一些计算者以采集化的体式建模智能体之间的关系从而提高算法扩张性。但这种关于系统的剖释具有较强的假定,不一定妥贴着实寰球系统的特点。因此团队进一步建议了一种更通用的采集化系统模子用来描摹解耦后多智能体系统的能源学和着实系统能源学之间的关系,其上风在于它不详责罚更平淡的合作多智能体任务。该宗旨弥合了模范采集系统和一般多代理系统之间的差距,为去中心化多智能体系统的计算提供了必要的表面框架和分析器具。
进一步,基于这种更一般化的采集系统,计算团队将单智能体学习中的模子学习表面扩张到多智能体系统中,使智能体不详孤独学习局部状态鼎新、邻域信息价值和去中心化计谋,将复杂的大范围有辩论艰苦振荡为更容易求解的优化问题。这么,大型东谈主工智能系统即使在样本数据和信推辞互受限的情况下,也能收场令东谈主得志的有辩论性能。早在上世纪 90 年代,强化学习教父 Richard Sutton 就建议了基于模子的程序来学习系统内在的动态特点来赞助计谋学习,提高样本效劳。在这项责任中,计算团队将腹地化模子学习与去中心化计谋优化相耦合,建议了一个基于模子的去中心化计谋优化程序。该程序是高效且可扩张的,在较小的腹地信息大小(当单个智能体与其他智能体之间的信推辞互受到截止)下就能类似单调的提高智能体计谋。具体而言,智能体不详使用经过充分侦察得到的腹地化模子来展望翌日状态,并使用腹地通讯来传递该展望。
图 2,采集系统结构关系及多智能体模子学习历程
为了缓解模子展望的差错问题,计算团队收受了分支推出计谋,用很多短时刻线推出替换了少数万古刻线推出,以减少模子学习和展望中的复合差错,促进了计谋学习历程中的类似单调提高才智:
计算团队从表面上进一步讲授了系统解耦后所产生的扩张值函数和计谋梯度是接近着实梯度的类似值,这在去中心化模子学习和单调计谋提高之间成立了遑急的表面桥梁。
多项测试收尾标明,该程序不详扩张到具稀有百个智能体的大范围电网和交通等采集化系统中,在较低的通讯老本下收场较高的有辩论性能。
图 3,计算程序在智能交通限制场景中的效果
使用了该程序限制的信号灯不详仅通过袭取相邻路口的车流信息调控复杂的交通流。这是因为在采集化结构的想象下,全体交通状态还是通过城市路网波折地传递并汇总到相邻路口,通过分析这些相邻路口的不雅测信息,就能臆测和展望通盘这个词城市的车流变化,从而作念出最优有辩论。在智能电网上的效果也考证了程序的可扩张性,不详在具有上百个节点的电力汇汇聚收场较低的电能损耗。
图 4,计算程序在智能电网限制场景中的效果
计算团队隆重东谈主杨耀东暗意:「翌日咱们将不绝潜入鼓吹多智能体学习表面与程序的计算,并赋能具身智能和寰球模子等前沿东谈主工智能鸿沟,权臣提高更平淡的智能系统在归拢、展望和有辩论方面的才智,使其在复杂动态环境中愈加生动高效的践诺任务。同期,咱们还将推动这些计算效果在智能交通、灵敏电网等鸿沟的应用,促进科技效果的快速振荡小泽圆电影下载,为社会创造更大价值。」
发布于:北京市