AI“谈判专家”来了！可制定策略，“忽悠”人类玩家

你好，这里是AIHub，继续跟你分享人工智能相关的新鲜见闻。

今天分享的是AI在谈判策略方面的进展，主角是来自Facebook母公司Meta开发的一个叫“西塞罗”的AI模型，它在一款由多名真人玩家参与的谈判策略战棋类游戏中，超过了大部分人的表现。

早在1997年深蓝在国际象棋比赛中击败加里·卡斯帕罗夫之前，棋盘游戏就已经成为衡量人工智能成就的一个有用指标。

2016年，谷歌AlphaGo击败世界围棋冠军李世石，将此类AI带到一个新的高度。

此前，AI的成功主要体现在纯粹的对抗性环境中，如国际象棋、围棋和扑克。在这些环境中，与对手交流没有价值，AI可以不断和自己进行游戏来学习，即通过具有足够计算和模型能力的自我游戏能力来解决问题。

但这款游戏不同，过去被认为是人工智能难以克服的挑战，因为需要掌握理解其他玩家的动机和观点，并制定复杂的计划以自然语言与其他人类玩家完成协议，在过程中还需要不断调整策略，最终创建伙伴关系和联盟，才有可能胜利。

这款游戏叫《外交》，是一款在海外风靡了60多年的，主打谈判和策略的战棋类游戏。

游戏《外交》的画面（来自官网webdiplomacy.net）

游戏背景设定在一战前的欧洲，一般有4—7名玩家参与，他们各自扮演不同的欧洲国家英、法、德、意、奥匈、俄国和土耳其，拥有棋盘上的一部分“领土”和“兵力”。

在每一回合游戏开始之前，玩家之间可以通过公开或者私下谈判，讨论是否形成联盟、宣战，或是设定一些外交底线。在商量完策略之后，游戏回合正式开始，玩家们既可以按照之前承诺的方式调动兵力，也可以选择欺骗和背叛。

在多个回合之后，谁能够在棋盘上获得超过一半的“领土”，谁就胜出。

可以看出，游戏规则本身并不复杂。真正复杂的，是参与游戏的真人玩家之间，通过对话，探讨行动策略，取得相互信任，乃至达成协议的过程。

这种跟真人谈判的工作，在过去被认为是最不适合AI从事的工作之一。

这里面的难点主要有三个。

首先是要求AI能够根据游戏进展，制定出符合玩家共同利益，且让自己获胜的策略。

其次，要运用恰当的语言表述，取得其他玩家的信任，使得其他玩家按照AI指定的策略来行动。

第三，当然是不能被别的玩家发现自己只是一个算法。

那么，这个叫“西塞罗”的算法是怎么做到的呢？

这个算法主要包含两部分：策略推理（类似于AlphaGo）和自然语言处理（类似于GPT-3）。

先说策略推理部分。在每一回合开始之前，“西塞罗”会运用“策略推理”模块，根据棋盘上各个玩家的当前“兵力分配”，计算出一套可以取胜的行动策略。进一步地，“西塞罗”还会把这套策略实施之后其他玩家可能的反应也纳入考虑。经过反复迭代之后，最终形成一个最有可能获胜，而且容易获得其他玩家支持的行动策略。确定策略之后，接下来就是说服工作。

“西塞罗”会将“策略推理”模块得出的结论输入到“自然语言处理”模块中，这个模块负责将冷冰冰的行动策略，转化成容易被真人玩家听懂并且信任的谈判语言。

这个过程可不仅仅是把AI的策略翻译成顺畅的人话这么简单。AI的表达还要考虑到之前跟这个玩家已经达成了哪些共识、有哪些合作或者背叛记录等等，根据对方的行事风格，来做出更有针对性的谈判。