具身AI的实验：一个团队的Alexa Prize夺冠历程-北冰洋门窗网

具身AI的实验：一个团队的Alexa Prize夺冠历程

机器之心Pro来源：2023-06-28 17:11:01

机器之心原创

【资料图】

作者：杨德泽

亚马逊Alexa Prize的打分系统每4个小时就会更新一次，这将决定着SEAGULL团队最终结果，在经历206天的代码更新之后，他们才能知道他们摘得了冠军，在此之前则是一次又一次打分的“胆战心惊”。

在总时间超过一年的比赛中，他们得过从1-5的所有分数。4月29日凌晨2:50，也就是比赛结束前的最后十分钟，SEAGULL团队提交了他们最后一次代码。之后，亚马逊就会根据用户的综合打分，为这次Alexa Prize决出最终冠军得主。

在人工智能领域，Alexa Prize已经成为了全球最受瞩目的人工智能竞赛之一，它奖金丰厚，用户群体庞大，还提供优质的计算资源供参赛团队使用。对于最终能够进入决赛的高校队伍来说，这和平时在学校里的实验室环境完全不一样，它不是面对实验室写出一篇paper，而是要做出一个真正能够对话的机器人。

据亚马逊官方介绍， Alexa Prize竞赛面对大学生团队、学术界和工业界有兴趣推进 AI 科学的研究人员。比赛分为公共基准测试阶段和实时交互阶段，而仅有5-10支队伍能通过公共基准测试阶段的预选去完成最终的竞逐。

与往年不同，今年的挑战增加了SimBot项目，专注于推进具身AI的研究。SimBot采用亚马逊自己开发的Arena模拟器，这是一个类似游戏的3D虚拟环境，设定为未来世界的实验室，具备各种可交互的道具和可操作的仪器设备，和一个能在Arena中自由行动玩耍、名叫SimBot的小机器人。用户的目标是通过语音指导机器人，使用环境中的道具完成各种或日常或新鲜的任务，例如制作一杯咖啡，使用时光机器修复破损的碗，或使用镭射光线为派对解冻蛋糕。

相比于传统对话机器人只需要处理语言输入并给出回复，SimBot任务的难点在于，机器人还需要处理视觉信号从而“看懂”环境，并通过执行动作改变环境中物体的状态，达成任务目标。因此，SimBot中的语言理解和对话建模涉及多个模态（语言+视觉）的复杂交互，而从接受用户指令到给出出行动方案的过程，又涉及对物理状态的推理决策和行为规划。

对于SimBot的评估也就变成了一个复杂的任务。Amazon Echo Show 是一款类似天猫精灵的语音视频交互产品，最终成绩将通过它背后的打分系统来产生，其用户包含了从8-80岁各类人群，这也意味着，入选的队伍要面对的是真实的亚马逊产品用户而懂技术的学术评委。据亚马逊官方介绍，传统的具身化人工智能任务通常采用自动化和非交互式的评估流程，重点是任务成功率，而SimBot使用交互式的人机循环评估，更加注重整体用户体验。

如何在一个特定的开发环境里短时间做出一个可对话、能感知、有互动的AI呢？这是所有参赛队伍需要面对的问题，它不光是技术方面的整合和优化，另一方面也是产品方面的创新，比如：如何让自己的机器人更受用户喜爱，如何让系统运行更快更稳定等等。

·谁在参加亚马逊Prize？

张亦弛是密歇根大学博士三年级的学生，研究方向是对话系统，偶然有一天收到自己导师发来的一个链接，这就SEGULL团队参加Alexa Prize的开始。“开发出一个非常棒的聊天机器人，拿到这样一个量级的比赛第1名，让大家一块分奖金，这种体验得多棒。”

SEGULL团队共有9个人，全部来自其密歇根大学SLED实验室。“我们参与的一个重要原因是SimBot挑战是具身化人工智能领域的一个先驱性竞赛，与我们实验室的研究重点完全一致。”SLED其英文含义是Situated Language and Embodied Dialogue（情景化语言和具身对话）， SLED Lab主要研究方向是具身智能和自然语言处理，包括具身以及多模态（视频、3D等）情况中的自然语言理解、具身智能体的建模与动作规划、情景化人机对话系统、物理常识推理（physical commonsense reasoning）、心智理论（theory of mind）、持续学习等。

SLED Lab相信，人类语言的使用方式，是由我们的目标、共同经历，以及我们对彼此的能力、知识和判断所塑造的。通过对丰富的物理、情境、沟通语境构建计算模型，以及创建能和人类通过语言沟通的具身智能体，SLED实验室正在推进具身智能和NLP的下一代技术。

具身智能是人工智能领域的集大成者，也被一些科学家认为是人工智能学界的终极问题，最终目的就是要造出一个能够对话、能够感知、能够对人类行为能够做出反馈的机器人。

“具身智能是AI领域皇冠上的明珠，因为它涵盖了人工智能领域的方方面面，”SLED实验室导师Joyce Chai教授表示：“Simbot是机会也是挑战，它为团队提供了一个探索交叉学科和发现科研问题的绝佳平台。”

亚马逊Alexa大赛由来已久，最初的愿景是“正常地与人类交谈 20 分钟”。这个看似轻松的目标事实上包含了具身智能的方方面面，按照官方说法，Alexa Prize的目标是建立一个能够进行自然、有趣和有深度对话的人工智能系统，该系统能够与人类进行开放领域的对话，包括社交对话、娱乐、教育等。

SEAGULL团队将其看作是具身智能的一次尝试。

“一种能力强大的具身AI应该能够在现实世界中运作，操作环境中的物体，理解和处理多模态输入，并通过与人类交流不断提高自己的能力。开发出一种高效的具身智能体的潜在影响是巨大的，从在餐厅中充当服务员和帮助老年人完成家务，到实现通用人工智能（AGI）的愿景。” 正如SEGULL技术报告提到的这样。

Alexa Prize第二阶段竞争的主要内容是建模并持续优化，直到做出一个能够和人类对话互动的机器人，而评判的标准就是，3D虚拟环境里的“人”能否真的像人。在这个模糊的目标之下，包含了具身智能中的感知、交互、决策等等方面，问题在于，如何去做？

·教会一个机器人真正地对话

在一个普普通通的餐桌上，放着一个开了一个缺口的碗，屏幕上出现一双手作为第一人称虚拟环境的表示，如果你告诉这台机器，“给我一杯牛奶”，它会先把碗放进SEAGULL设计的时光机里，让这个碗回到缺口之前，然后从冰箱内拿出牛奶，倒入碗中。如果你愿意，还可以让AI帮你在3D虚拟环境中帮你做一顿早餐。

这意味着，这台AI已经具有了多轮对话能力、识别能力、决策能力等，它已经懂得像人一样解决一些前置问题，比如在倒牛奶之前它懂得打开冰箱找到牛奶。

所谓高级人工智能，是能够在具体环境中感知、推理、行动和通信的智能体，“当机器人拥有身体之后，对于这个世界就有了改变的能力。”SEAGULL团队Co-Leader杨佳宁如是说。

2021年11月，SEAGULL团队成为进入初选的十名队伍之一，开始了时间跨度18个月的角逐。他们需要在接下来的时间里做出一个可以真正对话、执行指令的人工智能。

对于参赛队伍来说，有两种常见的方法，一种是端到端（End-to-end）的解决方法，这也是当下学术界普遍比较看好主流的具身智能解决方案之一。另外一种是模块化（Modular）的解决方法，模块化架构允许轻松添加、修改和删除技能和策略，促进系统的灵活性和适应性。

端到端建模是一种将整个系统作为一个统一模型进行建模的方法。神经网络将输入数据直接映射到输出，中间过程不需要人工设计的阶段或模块。端到端的网络由完全由数据驱动学习过程——在数据足够多的情况下，网络会自动学习到特征提取、规律总结，甚至复杂推理等涌现能力。模块化建模则采用分解问题的方式，将整个系统分解成多个模块或阶段，每个模块负责处理特定的任务或功能。这种方法更加注重系统的可解释性和可控性，因为每个模块都有清晰的功能和输入输出，同时也降低了对数据的依赖性。

这两种方法中的任何一种都首先需要面对一个问题，如何让机器人对人类世界做出反应，这就需要告诉计算机，摆在它面前的是一杯实在的牛奶，而非“milk”这个单词。当一个无法理解“牛奶”或者“距离”的AI撞上亚马逊的产品用户，最终结果就是一个”很笨的AI”。

SEAGULL以及其他团队需要面临的第二个问题就是，在一个无法预测、可解释性不强的系统中，当发现自己的虚拟机器人有问题的时候该如何调优以及在两百多天的比赛中不被其他团队超过。

“模块化系统天然具备更高的可解释性和可控性。”杨佳宁对机器之心说道，“由于系统被分解成多个模块，每个模块都可以独立设计和优化，易于调试和维护。在构建各个模块的过程中，通常也可以更好地利用领域专家的知识针对各个技能的特定需求进行设计，极大缓解了数据量不足的问题。”

SEAGULL队伍估计，SimBot比赛作为一个“冷启动”场景，数据量并没有那么大以满足端到端建模的需要，其次，由于端到端模型缺乏中间状态，模型的可解释性和可控性不强。换言之，如果机器人的表现出现问题，很难诊断到底问题出在哪里。而SimBot比赛中，机器人需要具备感知、状态追踪、任务进度估计、环境建模、行为决策、对话决策等多种能力，诊断问题和进行定点提高尤为重要。

相比之下，SEAGULL最终选择了模块化建模的道路。面对以上这些技术挑战， SEAGULL 团队表示，他们不想冒险去挑战一个完不成的智能，”一个完整的AI和完成比赛比追求一种技术路线更为重要。”

·优秀的人工智能离不开对于人的重视

除了设计系统架构和算法之外，在真实人机交互方面，SEAGULL 团队也投入了大量的工作。

这是做出一个优秀产品的关键部分，“有时候机器可能会做出一些很笨的事情”，比如由于距离设置的问题看不见一杯牛奶，事实上，这些问题在技术上非常好解决而”对于用户而言却致命——用户会觉得我们的AI很“笨”，这就需要的不仅仅是技术，而是增加对于产品的了解，了解到用户真正想用AI做的事情。

SEAGULL团队的方法可能看起来很朴素，但它具有创造性，并且提出了一个经常被忽视的人工智能事实：人工智能产品的最终呈现还是和人的交互。解决“AI很笨”的方法很简单：他们将目光转向了校内同学。

为了看到更多用户的使用体验，SEAGULL团队随机邀请了很多校内同学来体验自己的虚拟机器人。SEAGULL团队称，可以使用任何方式来和Alexa进行对话，在实际体验中他们发现，有时候费大力气写代码为系统增加的一些功能，并没有让系统的表现变好，但是一些bug一定会被用户记住。另外，一些小的设定反而很受用户喜欢，比如时光机、用镭射光给咖啡加热等等。

SEAGULL团队认为，自己和其他团队形成区别的关键是三种形式的洞察：

“第一种是它的「情境洞察」，指的是机器人对当前情境的理解。在SEAGULL中，我们设计了一个全面的状态跟踪系统，可以跟踪游戏中的大量信息，包括物体的位置和物理状态、用户和机器人之间的互动历史，以及提及的目标和任务进展。这些丰富的信息影响机器人做出的每个决策，使其能够始终做出理性决策。

第二种意识形态是「知识洞察」。我们注意到许多与我们的机器人交互的用户不确定要给出哪些指令或如何完成给定的任务。为了更好地帮助用户，我们为机器人设计了一个专门的知识库。基于这个知识库，我们开发了一个基于知识驱动的建议策略，为用户在游戏中的进展提供指导和支持。在比赛过程中，我们观察到这个功能对用户的体验产生了积极的影响，使他们感到更加自信和舒适。

第三，我们的机器人具备「自我洞察」，也就是它对自身能力和限制的认识。这种意识反映在我们的机器人对任务的解释和规划上。当任务变得困难时，机器人会与用户合作，共同制定更合理的策略。例如，在游戏中，机器人可以要求用户协助推动物体，或者寻找其他方法来完成任务。这种合作和灵活性有助于提高机器人在现实世界中的适应能力。”

在调整过认知之后，SEAGULL团队的目标不再只是智能化而更多的是产品化，重心会放到用户和系统整体性上来。杨佳宁表示，“在学术环境中，研究人员经常在过度规范化的环境中工作。我们被屏蔽了维护可靠、用户友好的服务所需的工作，仅关注核心算法组件。然而，在现实中，成功的人工智能应用涵盖了一个必须精心设计的流程。这个流程必须提供可靠的服务，提供愉快的用户体验，并能处理训练数据分布之外的情况。”

SEAGULL团队的机器人主要根据人的问题来生成回复或者做出行动，在机器人系统内部，SEAGULL团队设计有一个技能库、知识模块和决策模块，它们也决定了如何对人类的提问做出回应。它和人的社交在某种意义上具有相似性，这意味着，团队可以根据他们的希望，为用户定制对话进行的方向。他们还增加了一个状态跟踪模块，它可以更新回应用户的技能选择，并为选择最佳技能跟踪上下文情境。

“一个智能机器人不仅应该遵循关于做什么的命令，还应该对用户的社交意图作出适当的回应，”张亦弛说道。“例如，当机器人表现良好时，用户可能会赞扬它；当机器人表现不佳时，用户可能会表达沮丧或失望；或者用户可能出于对游戏的好奇提出问题。在SEAGULL中，我们进一步促进了这种社交互动，这是一个至今未被广泛探索的维度。”

一个场景令张亦弛至今记忆犹新，当自己的导师Joyce Chai使用过自己的产品之后跟他开玩笑“有点愣”，他解释道，这只是一个技术上的小瑕疵，“一切尽在掌握。”

关键词：