UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017 UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017 AI资讯 第1张

2017 年 7 月 7 日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的 CCF - GAIR 大会,在深圳大中华喜来登酒店开幕。在 AI 学术前沿专场的第三场, 伦敦大学学院 UCL 的汪军教授带来了以《群体智能的社会》为主题的报告。报告内容请看本篇雷锋网(公众号:雷锋网)的现场速记。

汪军, 伦敦大学学院(UCL)计算机系教授、互联网科学与大数据分析专业主任。主要研究智能信息系统,主要包括数据挖掘,计算广告学,推荐系统,机器学习,强化学习,生成模型等等。他发表了100多篇学术论文,多次获得最佳论文奖。是国际公认的计算广告学和智能推荐系统杰出华人专家。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017 UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017 AI资讯 第2张

汪军:潘院士今天早上讲了人工智能 2.0。其中的一个方向,是多个智能体之间的协作与竞争。我们还可以从社会学角度,把多智能体看作是一个群体;研究整个群体、动态系统的特性是什么。对于该话题,我希望给大家做一个介绍。

大家都了解 AlphaoGo,它的一项核心技术就是强化学习。相比模式识别和监督学习,它在缺乏训练数据集的情况下仍然可以工作。强化学习系统能够直接和环境交互,得到反馈信息,在此过程中不断学习,因此更加自然、灵活。强化学习的一项主要特性,是以收益(reward)定义目标方程,生成优化策略。

多智能体的强化学习

今天重点讲的,是多智能体的强化学习。它们单独的和环境进行交互。在一种情况下它们各自优化自己的目标,但这些目标之间有约束;另一种情况下,它们联合起来优化一个主要的目标方程。根据具体的情况会有不同的变化。

    案例 1:互联网广告

    过去,我们再互联网广告领域做了很多工作,比较早得应用了强化学习方法:在环境交互的情况下,根据投放广告以后用户的反馈,系统不断地进行学习。

    目前我们可以在 10 毫秒之内做好决策,在每天 10 亿流量的情况下进行分析,帮助广告主精准投放。

      案例 2:星际争霸

      UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017 UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017 AI资讯 第3张

      我们通过对星际争霸单位的控制,找到多智体的规律。研究它们在游戏里怎么合作、竞争与通讯。近几个月,我们和阿里巴巴合作开发了一套玩星际争霸的 AI 系统。该项目中,我们最想解决的是 AI 智体之间的通讯问题——当它们想合作起来攻打对方的时候,必须要有效地合作。我们希望在计算的时候,计算量相对较小,同时又达到智体的协同目的;于是采用了一种双向连通方式,效果非常明显。

      目前,多智体强化学习的研究仍处于非常初步的阶段。这里,有两个方面的关键问题:

      问题 1:多智体协同研究中,智体数量少

      目前的研究,主要集中于少量多智体之间的协同。在有上万个智体的情况下,(应用研究成果的)效果就不是很明显。而许多现实场景中的多智体数量,可以达到百万、甚至千万级。

        案例 3:智能打车 APP

        一个很明显的例子是Uber、滴滴等智能打车应用。

        这类例子中,每个用户手上的终端、每个司机手上的终端,你都可以把它们想象成智能体。它们可以做出决定:到底什么样的价钱我可以接受。系统层面甚至可以有一套机制合理分配资源。比如,出行高峰出租车比较少,但是需求量又比较大。而在其它的一些时候,可能出租车很多,但是需求量不大。系统怎么调配,这其实需要一个非常大的人工智能协作系统来分析。

          案例 4:共享单车

          共享单车的情况更加明显。你可以想象,如果给每个自行车装了芯片或者计算机,它就是一个很智能的东西,可以根据目前的情况,优化车辆的地理位置分布。

          今天,如果要做一个强化学习的模型,这个模型必须要可以处理百万级的智体。只有在这个量级,我们才可以把人工智体组成的群体和生物群落做对比,观察宏观层面的活动规律。

          应该怎么去做?我们可以从自然界里面获得一些启发。比如生态学的 self-organisation (“自组织”)理论:一些个体行为的简单规则,能造成种群层面的宏观规律。我们研究的课题之一,是探索多智能体组成的群体, 和自然界中的动物群体,是否有相通之处?其活动模式是否遵循同一套规律?

            案例 5:Lotka-Volterra 模型

            这里,有一个动物界的著名模型名为 Lotka-Volterra (LV)模型。该模型描述的是:相互竞争的两个种群,它们种群数量之间的动态关系。我们根据该模型的理论,用深度学习和强化学习做了一个老虎和羊的多智体生态模型。我们发现,如果关掉智体的学习能力(比如老虎),它们无法适应新环境,生态系统很快崩溃。

            而给智体学习能力之后,模型出现的现象,与 LV模型中猞猁抓兔子的动态现象十分相似。模拟出来的多智体生态,和自然世界的生态圈都遵循一种动态的平衡,就好比多个 AI 智体形成了一个动物种群。这让我们十分惊奇,人工智能体和生物群体可能有许多共同规律。

            这个研究很有意思的一点是,我们发现有这样的场景:智体之间可以联合在一起优化某一个目标,或者单独优化它们自己的目标。当出现这两种情况的时候,作为一个群体,他们就有了内在的规律。如果把这些规律找到,对于我们去开发一些新的模型、新的计算机人工智能的方法,是非常有帮助的。

            问题 2:缺乏对多智体环境控制的研究

              案例 6:宜家

              传统强化学习没有深入探索过多智体环境问题,而往往把它作为一个假设前提:要么假设这个环境是不变的,要么假设这个环境有一定的概率在不断变化。而这个概率是不变的(not designable),意味着无法设计这个环境,而是更加适应这个环境。但是实际情况下发现,很多场景下,环境本身也需要一个适应的过程。在宜家的热力图上,我们可以看出谷歌在商场里的活动是非常平均的,这是一个非常好的现象。我们可以开发一个强化学习算法,让环境(商品摆放)根据顾客的变化而变化。鉴于此,我们在 UCL 的团队首创了对多智体环境的控制,并研究如何学习环境的深层因素。

              这是一个建筑系教授进行的研究,他做了一个地图模拟人在店铺里面走的情况,根据热力图反馈到铺面设计,来优化用户在这里面待的时间,或者说最大化用户可能消费的情况。

                案例 7:分拣机器人

                单个智体(机器人)要进行优化,以最快的路径分拣快递包裹。这个环境未必是最优的,我们根据货物的统计特性,设计我把发往南京的包裹通道放在北京旁边还是放在上海旁边。所以环境也需要很好的考量和设计。

                  案例 8:迷宫

                  一个人工智体,需要以最快的效率找到出口。而环境知道其智能水平,根据情况来设计迷宫,使得智体有最困难或者最小的概率可以出去。这是一个竞争的关系。

                  怎么优化呢?你会发现,该系统在两个不同的维度进行。在人工智体的情况下,它会说给定一个环境,我想以最快的效率、最优的策略走出来。当你把这个人工智体学到的东西定住以后,就可以在另外一个维度优化环境:现在这个智体是这样的属性,能不能据此使得环境更困难?这两个维度互相竞争、互相迭代,就可以达到优化的情况。雷锋网雷锋网

                  相关文章:

                  CMU教授金出武雄演讲:户外机器人系统 | CCF-GAIR 2017

                  中科院院士谭铁牛:模式识别研究的回顾与展望 | CCF-GAIR 2017

                  AAAI主席Subbarao:机器的学习过程与人类不一样 | CCF - GAIR2017

                  第二届 CCF-GAIR 开幕!中国 AI、机器人行业产学研跨界整合进入新时期| CCF-GAIR 2017