AI Agent 十大研究方向,数字员工、超级个体、具身智能与之密切相关

频道:互联网 日期: 浏览:12
       

  埃森哲在《技术展望 2024》报告中指出96% 的企业高管认为 AI Agent 生态系统应用将在未来 3 年内为他们的组织带来重大机遇。

  报告认为随着人工智能向智能体演进自动化系统将能够自主决策和行动。智能体不仅会为人类提供建议还将代表人类采取行动。人工智能将继续生成文本、图像和洞察而 AI Agent 将自行决定如何处理这些信息。

  当智能体升级成人类的同事后就需要人类与智能体一起重新构建技术和人才的未来。

  IDC《AIGC 应用层十大趋势》报告中调研表明所有企业都认为 AI Agent 是 AIGC 发展的确定性方向50% 的企业已经在某项工作中进行了 AI Agent 的试点另有 34% 的企业正在制定 AI Agent 的应用计划。

  这个报告也对 AI Agent 发展趋势做了两点预测:AI Agent 让 “人机协同” 成为新常态个人与企业步入 AI 助理时代。AI Agent 能够帮助未来企业构建以 “人机协同” 为核心的智能化运营新常态;AI Agent 变革未来生产力的组织形式对抗组织熵增。未来企业工作任务将在 AIGC 的助推作用下变得日益原子化和碎片化复杂的流程将被无限拆解再进行灵活的编排和组合每个环节的效能和潜力都将被 AI 持续挖掘。从供给端看“人 + AI 数字员工” 的高效协同模式将为大型企业对抗组织熵增提供理想的解法。

  而在腾讯发布的《2024 数字科技前沿应用趋势》中“多模态智能体加速 AGI 进程” 被列为第二大趋势。

  该报告认为通用人工智能渐行渐近大模型走向多模态AI 智能体(Agent)有望成为下一代平台;端侧大模型加速部署或将成为未来交互新入口。AI 在数学推理、新药研发、材料发现、蛋白质合成等领域大显身手“AI 科学家” 有望加速问世。

  这三个报告一方面预测了 AI Agent 的未来发展趋势另一方面也同时提及了多模态大模型、数字员工、具身智能等一系列概念。

  其中 IDC 给出的新型数字员工概念与 AI Agent 有了非常强的关联。此外该报告中所提到的 “一个人加上足够的 AI 工具就可以成为一家专业化公司” 的 Agent 应用也指向了当前正在热议的超级个体。

  事实上AI Agent 不只关联了两个概念还催生了更多的研究方向。那么数字员工和超级个体与 AI Agent 有什么关联?具身智能与 AI Agent 有什么关系?AI Agent 都有哪些研究方向?

  本文王吉伟频道就与大家聊聊这些。

  研究方向一:基于大型语言模型的 AI Agent

  大语言模型(Large Language ModelsLLM)是一种使用人工神经网络构建的基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本还能够深入理解文本含义处理各种自然语言任务如文本摘要、问答、翻译等。

  2023 年大语言模型及其在人工智能领域的应用已成为全球科技研究的热点其在规模上的增长尤为引人注目参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处更加深入地理解人类语言的复杂性。

  在过去的一年里大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟它将不断拓展其应用范围为人类提供更加智能化和个性化的服务进一步改善人们的生活和生产方式。

  大语言模型的浪潮推动了 AI Agent 相关研究快速发展AI Agent 是当前通往 AGI 的主要探索路线。大模型庞大的训练数据集中包含了大量人类行为数据为模拟类人的交互打下了坚实基础;另一方面随着模型规模不断增大大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。

  LLM 提供了 AI Agent 的新基座自动化和拟人化是两大方向。大语言模型庞大的训练数据集中包含了大量人类行为数据为模拟类人的交互打下了坚实基础;另一方面随着模型规模不断增大大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。

  将大模型作为 AI Agent 的核心大脑就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。由于大模型仍存在大量的问题如幻觉、上下文容量限制等通过让大模型借助一个或多个 Agent 的能力构建成为具备自主思考决策和执行能力的智能体成为了当前通往 AGI 的主要研究方向。

  在 AGI 时代到来之前AI Agent 的能力的极限将主要受其大脑也就是 LLM 的影响可以说 LLM 决定了 Agent 在未来的普及与应用。

  因此基于 LLM 的 AI Agent将是人们长期研究的方向。

  研究方向二:AI Agent 构建、应用与评估

  这是 AI Agent 研究的主要方向。

  构建 AI Agent 需要深入理解其核心技术包括 LLM、记忆、规划技能和工具使用能力。AI Agent 的应用领域非常广泛包括游戏、个人助理、情感陪伴等。评估 AI Agent 的性能是研究的重要部分需要考虑如何在零样本条件下评估其通用语言理解和推理能力。

  AI Agent 的构建、应用和评估都是人工智能研究的重要部分。

  AI Agent 构建

  AI Agent 的构建主要包括四个部分:大模型、规划、记忆和工具使用。

  大模型:大模型(如 GPT-4 及文心一言、通义千问等)作为 AI Agent 的 “大脑”提供推理、规划等能力。

  规划:代理能够将大型任务分解为更小的、可管理的子目标从而更好地处理复杂任务。

  记忆:AI 代理具备长时间保留和回忆信息的能力通常通过利用外部向量存储和快速检索实现。

  工具使用:代理学习调用外部 API 以获取模型权重中缺失的额外信息包括当前信息、代码执行能力、对专有信息源的访问等。

  这四个模块与 AI Agent 能力的提升息息相关接下来会有很多组织投入大量且持续的研究工作以提升 AI Agent 能力的应用与普及速率。

  AI Agent 应用

  AI Agent 在多个领域都有应用包括但不限于教育、游戏、网络购物和网页浏览等。比如在教育领域AI 代理提供个性化、智能化和高效化的服务优化学习体验。

  AI Agent 评估

  评估 AI Agent 是一项很大的挑战需要量化和客观地衡量其智能水平。图灵测试是一种常见的评估方法用于评估人工智能系统是否表现出类似人类的智能。

  此外还有专门的基准测试如 AgentBench用于评估 LLMs 作为智能体在各种真实世界挑战和不同环境中的表现。接下来将会有更多的基准测试面向 Agent 的各个环节以促进 Agent 生态的良性发展与生态完善。

  研究方向三:多智能体系统

  多智能体系统(Multi-Agent Systems, MAS)是由多个互相协作或竞争的自治智能体组成的系统旨在通过集体行为解决复杂问题。在 MAS 中每个智能体都具有一定程度的自主性并能够感知环境、作出决策并与其他智能体交互。

  智能体可以执行多种任务其具体性质取决于系统的目标和应用领域。智能体的主要任务通常包括感知环境、处理信息、作出决策并与其他智能体交互以实现共同的目标。

  多智能体系统是人工智能的一个重要分支它研究如何设计和实现多个智能体之间的协作和竞争的机制和方法。它具有以下特点:

  由多个自治的、互动的、异构的智能体组成每个智能体都有自己的目标、行为、信念和偏好同时也受到环境的影响和约束。

  目标是实现智能体之间的协作和竞争的平衡使得每个智能体都能达到自己的目标同时也能促进整个系统的性能和效益。

  难点是如何处理智能体之间的复杂的交互和协调如何解决智能体之间的冲突和矛盾如何评估智能体的表现和进步如何接受人类的反馈和指导如何遵守人类的伦理和法律等。

  多智能体协作系统(Multi-Agent Collaboration SystemsMACS)是一种特殊的多智能体系统其目标是使多个智能体能够有效地协作以实现一些超出单个智能体能力范围的任务。

  Agent 可以以协作或竞争的方式相互交互。这使他们能够通过团队合作或对抗性互动来实现进步。在这些系统中Agent 可以共同完成复杂的任务或相互竞争以提高其性能。

  比如用于模拟和优化交通、能源、物流等领域的复杂系统也可以用于设计和实现智能家居、智能城市、智能工厂等应用场景。

  多智能体协作系统的核心挑战是如何实现智能体之间的协作和竞争的平衡以及如何使智能体能够根据不同的任务和角色进行自适应和学习。

  近年来随着深度学习、强化学习、自然语言处理等技术的发展多智能体协作系统的研究也取得了一些重要的进展和突破。

  例如CAMEL 是一个首个大模型多智能体框架它可以让多个智能体在一个共享的环境中进行协作和竞争的学习同时也可以让智能体之间进行自然语言的交流和协商。CAMEL 已经在 NeurIPS 2023 上斩获了 3.6k 星展示了多智能体协作系统的巨大潜力和前景。

  另外还有一些具有代表性的多智能体协作系统如 OpenAI Five、AlphaStar、DeepMind Quake III Arena Capture the Flag 等它们分别在 DOTA 2、星际争霸 II、雷神之锤 III 等游戏中展示了超越人类水平的协作和竞争的能力。

  多智能体系统是人工智能的一个前沿和热点的研究领域涉及到多个学科和领域如计算机科学、数学、经济学、心理学、社会学、生物学等。

  其研究和应用对于理解人类智能的本质和机制提高人工智能的水平和能力解决人类社会的各种问题都具有重要的意义和价值。

  研究方向四:自主智能体

  在人工智能领域自主智能体(Autonomous Agent)是指能够在环境中感知、学习和执行动作的智能实体。这种实体具有自主性即它能够独立地做出决策和行动而无需人为干预。

  自主智能体具备自主决策和行动能力能够在给定的环境中自主地感知、学习和做出决策以实现特定的目标。自主智能体能够根据环境的变化和反馈信息不断地适应和改进自己的行为从而实现更好的性能和效果。

  它通常被设计成具备对环境的感知能力能够根据感知到的信息做出理性的决策并执行相应的动作以达到特定的目标。在实现自主性的过程中机器学习和深度学习等技术发挥了关键作用。

  自主智能体的设计和实现涉及多个方面包括但不限于机器学习、自然语言处理、计算机视觉等 AI 技术的综合运用。

  它们被设计用于执行各种不同的任务如管理社交媒体账户、投资市场、制作儿童读物等甚至在一些情况下它们可以帮助人们释放时间去做更有创造性的事情。

  其研究价值主要体现在强化学习和机器人学中例如 deepmind 的 Alphago 和 Openai 的 OpenaiFive(一个会打团战的 Dota2 游戏 AI)都是比较典型的基于强化学习智能体运用。

  LLM 爆发以后近一年来关于 Agent 的研究和话题开始呈现井喷之势例如 AutoGPT、BabyAGI、Generative Agents、MetaGPT 等项目在 Github 上已狂揽上万 star成为炙手可热的明星项目。

  使用自主智能体一般涉及以下步骤:确定问题和目标:首先需要明确问题和目标即定义智能体需要解决的任务和期望的结果;构建环境模型:了解和建模智能体与环境之间的交互方式包括状态空间、行动空间、奖励函数等;选择合适的算法:根据问题的性质和特点选择适合的强化学习算法或其他相关算法来训练自治代理;训练和优化:使用选择的算法和环境模型通过与环境的交互和反馈训练自治代理以学习适当的决策策略以最大化累积奖励或实现特定目标;调优和评估:根据训练过程中的表现和性能对自治代理进行调优和评估以提高其决策能力和效果。

  相比于之前的基于强化学习的 Agent 研究现在的 Agent 主要是指以大模型技术 (LLM) 作为主体或者大脑能进行自动规划拥有自主决策能力以解决复杂问题的智能体。

  近年来有关自主智能体的研究有了许多突破性进展以往困扰 AI Agent 研究者的社会交互性和智能性问题都随着大语言模型(LLM)的发展有了新的解决方向。

  例如已经有一些研究工作在探索如何通过引导大模型进行任务分解的大模型提示方法如 Chain-of-Thought以及如何使用工具学习(Tool Learning)的概念强调了运用大模型来进行工具的创造和使用并提供了 BMTools 工具包。

  此外还有一些研究工作在探索如何通过记忆模块提升精准记忆和复杂推理能力。总的来说自主智能体的研究进展迅速展现出巨大的潜力和前景。

  研究方向五:生成式智能体

  生成式智能体(Generative Agents)可以定义为一种计算软件智能体能够模拟可信的人类行为。它们能够存储智能体的完整经验记录将这些记忆随时间整合为更高级别的反思并动态地检索这些记忆以规划行为。

  生成式智能体能够对自己、其他智能体和环境进行广泛的推理。面对新任务时它们可以利用已获得的一般知识和策略迅速调整学习方法减少对大量样本的依赖。这种技术可广泛应用于交互式应用如沉浸式环境、人际沟通的排练空间和原型设计工具等。

  生成式智能体的概念最早由斯坦福大学和谷歌的研究人员于 2023 年在论文《Generative Agents: Interactive Simulacra of Human Behavior》中提出。

  为了创建生成式智能体研究者构建了一个系统架构此架构扩展了大型语言模型的功能使其能够存储智能体使用自然语言的经验记录。随着时间的推移这些记忆会被整合为更高级别的思考并被动态检索以规划智能体的行为。

  研究者将生成式智能体实际应用到一个互动沙盒环境中这个环境受到了《模拟人生》的启发。在这个环境中终端用户可以使用自然语言与一个由 25 个智能体组成的小镇进行互动。

  这些智能体的行为表现得就像人类一样:他们早晨醒来为自己做早餐然后去工作;艺术家智能体会创作画作而作家智能体会撰写文章;他们可以形成自己的观点关注其他智能体并展开对话;在规划第二天的工作时他们会回忆并思考过去的日子。

  此外这些智能体还能使用自然语言来存储与智能体相关的完整记录随着时间的推移将这些记忆整合为更高级别的思考并动态地检索这些记忆以指导其行为。

  评估结果显示这些生成式智能体展现了可信的个体和社会行为。例如从一个用户指定的概念开始即一个智能体想举办一个情人节派对这些智能体在接下来的两天里自主地传播派对的邀请结识新朋友互相约定参加派对并协调在正确的时间一起出现在派对上。

  研究结果表明智能体架构的组成部分即观察、计划和反思等能力都对智能体行为的可信度起到了关键性作用。

  这项研究将大型语言模型与计算、交互式智能体相结合为实现对人类行为的可信模拟奠定了基础。

  此外这项研究还证明了可信的人类行为智能体能够增强交互式应用程序的功能从沉浸式环境到人际交流的排练空间再到原型设计工具等。

  研究方向六:人机协同

  未来生成式 AI 带来的人机协同将会呈现三种模式:嵌入(embedding)模式、副驾驶(Copilot)模式及智能体(Agent)模式。

  Embedding 模式:用户通过与 AI 进行语言交流使用提示词来设定目标AI 协助用户完成这些目标。

  Copilot 模式:在这种模式下人类和 AI 各自发挥作用。AI 介入到工作流程中从提供建议到协助完成流程的各个阶段。

  Agent 模式:由人类设定目标并提供资源这些资源通常是计算能力然后监督结果。在这种情况下Agent 承担了大部分工作。

  Agent 模式会成为未来人机交互的主要模式。

  Agent 时代的人机协作(Human-Agent Collaboration简称 HAC)是指人类与智能体(如机器人、虚拟助手等)之间的合作与协同共同完成特定任务或解决问题。

  Agent 可以与人互动为人提供帮助并更高效、安全地执行任务。他们可以理解人类的意图并调整他们的行为以提供更好的服务。人类反馈还可以帮助 Agent 提高性能。

  在 Agent 模式下人类设定目标和提供必要的资源(例如计算能力)AI 独立地承担大部分工作最后人类监督进程以及评估最终结果。这种合作模式结合了人类的创造力和判断力与智能代理的数据处理和实时响应能力旨在实现更高效、更智能的工作方式。

  这种模式下AI 充分体现了智能体的互动性、自主性和适应性特征接近于独立的行动者而人类则更多地扮演监督者和评估者的角色。智能体模式相较于嵌入模式、副驾驶模式无疑更为高效或将成为未来人机协同的主要模式。

  AI Agent 的出现使得大模型从 “超级大脑” 进化为人类的 “全能助手”。AI Agent 不仅需要具备处理任务和问题的智能能力还需要拥有与人类进行自然交互的社交智能。

  这种社交智能包括理解和生成自然语言、识别情感和情绪等能力。社交智能的发展将使得 AI Agent 能够更好地与人类进行合作和交流拓展其应用场景。

  基于大模型的 Agent 不仅可以让每个人都有增强能力的专属智能助理还将改变人机协同的模式必会带来更为广泛的人机融合。


    

欧比特爱玩:https://www.cnobt.com 欧比特爱玩https://www.cnobt.com
分享到: