Agent-Pro: 玩游戏不再一枝独秀的LLM Agent

发布时间:2024-04-19 16:00:30 浏览量:210次

Agent-Pro: 玩游戏不再一枝独秀的LLM Agent

图1 Agent-Pro示意图

如上图1所示,Agent-Pro以LLM作为基座模型,通过自我优化的Prompt来建模游戏世界模型和行为策略。

  • Dynamic belief:Agent-Pro动态地生成自我信念(Self-Belief)和对外部世界的信念(World-Belief)。每次决策都基于这些信念,并动态地更新这些信念。

  • World Modeling & Behavior Policy: Agent-Pro内部包括一个对任务世界的建模以及对自己行为策略的描述。在持续环境交互和探索中,Agent-Pro不断优化这个游戏世界模型和行为策略。

  • Policy-level Reflection and Optimization: 通过对历史行动轨迹、信念和每局游戏结果进行策略级的反思,Agent-Pro“微调”其不正确的信念,优化一个更好的prompt实现来对游戏世界和行为策略进行建模。

研究者在多人德州扑克和21 点这两个广为流行的博弈游戏中进行了实验。结果表明,受益于持续优化的世界模型和行为策略,Agent-Pro的游戏水平不断提升,涌现出很多类似人类的高阶技巧: 虚张声势,欺诈,主动放弃等。这为多种现实世界的很多场景提供了可行解决路径。

论文题目:

Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization

论文链接:

点击咨询

代码链接:

点击咨询

Agent-Pro是如何学习和进化

1.1

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定