文章主题:
谢邀。
🚀掌握未来游戏巅峰!🔍以80年代经典”吃豆小姐”为引子,揭示AI技术的惊人成就。微软旗下的创新力量Maluuba,凭借其深度学习算法,在Atari 2600版游戏中展现出无人能敌的实力,成功斩获惊人的999,990分,刷新历史纪录!🏆每一颗豆子的背后,都是科技与智慧的结晶。让我们一探究竟,AI如何在游戏世界中书写传奇篇章!🔥
————这里是正式回答的分割线————
微软的研究人员在近期创建了一套基于人工智能的系统,以学习如何在20世纪80年代风靡一时的电子游戏“吃豆小姐”中获得最高分。该系统运用了“分而治之”的方法,可广泛用于对AI代理(agents)进行训练,使之掌握能够增强人类能力的复杂任务。
为什么选择“吃豆小姐”游戏?
🚀掌握了AI的最新动态,你是否曾对将尖端技术应用于上世纪80年代的经典Atari游戏感到疑惑?殊不知,Maluuba的项目经理 Rahul Mehrotra揭示了其中的深层挑战——解决这类看似简单却充满变数的游戏并非易事。每一场对决都像是一场未知的冒险,每个决策都需要精准应对,这就是AI背后复杂逻辑的体现。
Mehrotra说:“在游戏中取胜需要很多与人类十分相似的‘智力’,所以很多从事AI研究的公司都使用电子游戏来构建智能算法。”
“吃豆小姐”游戏街机版的共同发明者之一Steve Golson说,这款游戏入门很简单但打通关却几乎不可能,因为它最初是针对街机设计的,店老板们总是希望人们不断地往里面投币。“店家希望玩家们觉得,‘哦,哦,我差一点就打通关了!我要再试一次,”Golson说。“再投一个币。”他们当初设计“吃豆小姐”时有意让她比普通的“吃豆人”更难以预测,让玩家更难打通关。而这使得它成为研究人员训练AI代理对随机环境做出反应的理想环境。“这款游戏看起来很简单,”他说,“但由于游戏中的各种随机情况,其复杂性又十分惊人。”
混合奖励结构——AI代理
🎉💻蒙特利尔麦吉尔大学的计算机科学巨擘:Doina Precup,对AI领域的这一突破性进展表示高度认可!🔍以往,研究人员们常常通过游戏测试来挑战AI,而“吃豆小姐”因其复杂性成为了难以逾越的高峰。但现在,Maluuba团队的创新策略改变了这一切——他们巧妙地将这个艰巨任务分解为一系列小目标,每个目标都由独立的AI代理逐一攻克!🏆这不仅展示了技术的进步,更体现了解决问题的智慧和团队协作的力量。🏆🚀SEO优化词汇:#蒙特利尔麦吉尔#AI突破#游戏测试#Maluuba团队#深度学习#智能代理#任务分解
🌟人工智能协作新视角:AI代理的集体智慧🚀 Precup女士深入阐述了这一创新理念,它将AI的力量转化为高效的团队合作,与大脑工作方式相呼应。她强调,这种分工协作模式在训练AI解决复杂任务时具有深远潜力,预示着通用人工智能的新里程碑。🏆令人振奋的是,我们正逐步迈向更加全能的智能未来!🌍
Maluuba团队将这种方法称为“混合奖励结构(Hybrid Reward Architecture)”,其中使用了150多个代理,每个代理都能与其他代理并行工作,以掌握“吃豆小姐”游戏的玩法。例如,一些代理成功找到某个特定“豆子”时会获得奖励,而另一些代理则被指定负责设法避开“鬼怪”。
🌟研究人员巧妙地构建了一位高层指挥者角色,犹如企业智囊团的核心人物,它担当重任,从众多底层代理人中汲取策略意见。👀这个顶层大脑通过量化向前推进的代理数量,同时洞察其行动意愿的坚决程度,来决定接下来的行动路径,确保游戏进程的智慧决策。
原文描述的情境可以改写为:假设一群智能代理人面临抉择,100个积极寻找目标(豆子)的个体偏向右侧,而3个谨慎的成员察觉到潜在威胁(鬼怪),倾向于左侧。在这种情况下,上层策略会平衡各方利益,提升警惕代理的愿望权重,引导整体向左移动,以规避风险。通过优化词汇和增加表情符号,如:🤔右方豆子召唤🔍鬼怪威胁,智能调整流向LEFT,来提高SEO友好度并保持信息流畅性。
Maluuba公司的研究经理Harm Van Seijen,同时也是关于这项成就的新论文的主要作者,他表示,当每个代理都自发地采取行动时,就会实现最好的结果。例如,其它每个代理只关注获取豆子的最佳方式,而由上层代理决定如何运用来自各个代理的信息,做出对每个人都最有利的选择。
他说:“一方面它们要设法根据所有代理的偏好展开合作,但另一方面每个代理又只关心一个特定问题,这样就产生了良性互动,对大家都有好处。”
增强学习
对于在不断发展的增强学习领域从事研究工作的人来说,这种不可预测性是特别有价值的。在AI研究中,监督学习是一种更为常用的人工智能方法,通过用越来越多包含“正确行为”的样本训练系统,使其会变得越来越擅长从事某种工作。
而增强学习的原理却大相径庭。通过增强学习,代理所尝试做出的每个动作都会获得积极或消极的反馈,并从尝试和试错中不断学习,以最大限度地获得积极反馈,或称之为奖励。
采用监督学习的AI系统,将通过学习好的或差的的回应示例,学会在对话中给出适当回应。另一方面,对于采用增强学习方法的系统,人们期望它仅从高级别反馈(例如一个人表示自己很喜欢当前对话)中学习适当的回应,这项任务的难度要高得多。
AI专家认为,增强学习可以用于创建AI代理,让它能够独立做出更多的决定、承担更为复杂的工作,把人们解放出来去从事更有价值的工作。
例如,Mehrotra表示,他们所开发的“吃豆小姐”打通关方法可用于帮助公司的销售部门针对某个特定日期或特定时刻的潜在客户进行准确预测。系统可以使用多个代理,每个代理盯住一名客户,由一个上层代理对多项因素加以权衡,如哪些客户即将续约,哪些合同对公司最有价值,以及某一天或某一时刻潜在客户通常是否在办公室或可前往拜访等。
相应地,销售主管会得到解放,就能够把自己的时间全部放在销售事务上,这样将会增加成交几率,因为她只需要瞄准最容易接受的客户即可。
Van Seijen表示,这种“分而治之”的方法还可用于其它AI研究领域,如自然语言处理等。他说:“它确实能让我们在解决这些异常复杂的问题上取得深入进展。”
以上回答摘选自微软研究院AI头条,999,990历史最高分!看微软AI如何把“吃豆小姐”玩通关。
感谢大家的阅读。
本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。
微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。
也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号,了解更多我们的研究。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!