Skip to content

MultiAgentBench:评估 LLM 智能体的协作与竞争

原标题: MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents 作者: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaochen Yang 等 (UIUC) 发表: arXiv 预印本, 2025年3月 链接: arXiv:2503.01935领域: 多智能体系统、基准测试、LLM 评估


一句话总结

MultiAgentBench 是首个同时评估 LLM 智能体"任务完成度"和"协调质量"的基准测试,涵盖研究协作、Minecraft 建造、狼人杀等六大场景,揭示了多智能体系统的涌现行为模式。


研究背景与动机

为什么需要多智能体基准测试?

单智能体系统虽然表现出色,但存在局限:

单智能体多智能体
单独运行协作、协调、联合规划
任务执行效率有限可并行处理复杂任务
无法模拟社会互动真实社交动态模拟

💡 通俗理解: 就像一个人做项目 vs 一个团队做项目——多智能体系统需要评估的不仅是"做得好不好",还有"合作得好不好"。


MARBLE 框架

研究者提出了 MARBLE (Multi-Agent aRena for Benchmarking LEadership) 框架:

┌─────────────────────────────────────────────────────────────┐
│                    MARBLE 评估框架                          │
├─────────────────────────────────────────────────────────────┤
│  任务完成度 (Task Completion)                               │
│  ├─ 里程碑 KPI:各智能体对关键节点的贡献                     │
│  ├─ 任务分数:基于评分标准或规则的最终评估                   │
│  └─ 输出质量:最终产出的质量评分                            │
├─────────────────────────────────────────────────────────────┤
│  协调质量 (Coordination Quality)                            │
│  ├─ 沟通分数:LLM 评估的 5 分制                             │
│  ├─ 规划分数:策略适应性评估                                │
│  └─ 综合协调分数                                            │
└─────────────────────────────────────────────────────────────┘

KPI 计算公式

KPI = Σ (各智能体的里程碑贡献) / 总里程碑数

每个智能体的贡献由其在关键任务节点的表现决定。


六大评估场景

场景分类

场景目标类型智能体数核心挑战
研究协作共同目标多人共同撰写研究提案
Minecraft 建造共同目标多人协作完成建筑任务
数据库诊断共同目标多人跨专业领域错误分析
编程挑战共同目标多人集体解决编程问题
狼人杀冲突目标多人对抗性社交推理
讨价还价冲突目标2人资源分配谈判

共同目标 vs 冲突目标

共同目标场景                      冲突目标场景
┌─────────────────┐              ┌─────────────────┐
│  研究、编程、   │              │  狼人杀:       │
│  Minecraft、    │              │  村民 vs 狼人   │
│  数据库诊断     │              │                 │
│                 │              │  讨价还价:     │
│  全员利益一致   │              │  利益对立       │
└─────────────────┘              └─────────────────┘

协调拓扑结构

研究测试了四种不同的多智能体协调协议:

1. 星形拓扑 (Star)

        ┌───────┐
        │ 规划者 │
        └───┬───┘
       ╱    │    ╲
      ╱     │     ╲
   ┌───┐  ┌───┐  ┌───┐
   │ A │  │ B │  │ C │
   └───┘  └───┘  └───┘
  • 特点: 单一中央规划者
  • 优势: 决策统一
  • 劣势: 规划者成为瓶颈

2. 链式拓扑 (Chain)

   ┌───┐ → ┌───┐ → ┌───┐ → ┌───┐
   │ A │   │ B │   │ C │   │ D │
   └───┘   └───┘   └───┘   └───┘
  • 特点: 顺序传递
  • 优势: 流程清晰
  • 劣势: 延迟累积

3. 树形拓扑 (Tree)

            ┌───────┐
            │ 总规划│
            └───┬───┘
           ╱         ╲
    ┌───────┐     ┌───────┐
    │子规划A│     │子规划B│
    └───┬───┘     └───┬───┘
       ╱ ╲           ╱ ╲
     ┌─┐ ┌─┐       ┌─┐ ┌─┐
     │a│ │b│       │c│ │d│
     └─┘ └─┘       └─┘ └─┘
  • 特点: 层级分解
  • 优势: 复杂任务分解
  • 劣势: token 消耗高,性能差

4. 图形拓扑 (Graph)

   ┌───┐ ←──→ ┌───┐
   │ A │      │ B │
   └───┘ ╲  ╱ └───┘
          ╲╱
          ╱╲
   ┌───┐ ╱  ╲ ┌───┐
   │ C │ ←──→ │ D │
   └───┘      └───┘
  • 特点: 全连接网格
  • 优势: 信息流动自由
  • 劣势: 协调复杂度高

实验结果

模型性能对比

模型研究协作编程挑战协调分数特点
gpt-4o-mini84.13%65.10%中等任务完成度最高
Meta-Llama-3.3-70B中等中等协调能力强
Claude 系列中等中等编程场景优势

关键发现

⚠️ 核心洞察: "协调分数高不保证任务成功" —— 好的沟通不等于好的结果。

规划策略对比

策略协调分数任务完成度适用场景
认知进化规划最高需要持续适应的任务
图形协议研究场景最佳知识密集型任务
树形协议⚠️ 不推荐(高消耗低性能)

涌现行为发现

研究观察到三种涌现行为模式:

1. 策略性信息共享

智能体 A: "我有关于市场趋势的数据..."
智能体 B: (选择性分享) "我这边的用户反馈是..."

→ 智能体会根据自身利益选择性披露信息

2. 信任极化协作

同角色智能体 → 高度信任 → 深度合作
异角色智能体 → 低信任 → 谨慎互动

→ 角色身份驱动合作模式

3. 角色驱动策略迭代

初始阶段: 保守策略,观望为主
中期阶段: 逐渐展现领导力
后期阶段: 根据形势调整角色定位

→ 智能体会从保守转向领导角色

消融实验洞察

迭代次数影响

迭代次数   1-3    4-7    8-10   >10
任务分数    ↑      ↑↑     峰值    ↓
协调分数    ↑      ↑↑     峰值    ↓

→ 最佳迭代次数约为 7 次

智能体数量影响

智能体数协调效果KPI
1基准
3最佳中高
5+下降下降

"随着团队扩大,KPI 下降——协作复杂度增加导致效率降低。"

这与人类团队管理的经验高度一致——"两个披萨原则"(团队规模不应超过两个披萨能喂饱的人数)。


实际应用启示

1. 多智能体系统设计

场景类型推荐拓扑智能体数
研究/知识型图形3-5
流程型任务链式2-4
对抗性场景星形根据游戏规则

2. 模型选择建议

需求推荐模型
高任务完成度gpt-4o-mini
高协调能力Llama-3.3-70B
编程任务Claude 系列

3. 迭代与规模控制

  • 迭代次数: 控制在 7 次左右
  • 团队规模: 3 人为最佳平衡点
  • 避免: 树形拓扑(高消耗低回报)

研究局限性

局限说明
场景多样性有限仅 6 种场景
模型覆盖不完整未测试所有主流模型
记忆机制探索不足长期记忆影响未研究
缺乏开放式任务任务边界明确

总结

MultiAgentBench 为多智能体 LLM 系统提供了首个综合性评估框架

贡献意义
双维度评估任务完成 + 协调质量
六大场景覆盖合作与对抗
四种拓扑探索不同协调模式
涌现行为发现揭示智能体社会动态

💡 核心洞察: 多智能体系统的成功不仅取决于单个智能体的能力,更取决于它们如何协调——好的团队合作比强大的个体更重要


参考资料

基于 MIT 许可证发布。内容版权归作者所有。