MultiAgentBench：评估 LLM 智能体的协作与竞争

原标题: MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents 作者: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaochen Yang 等 (UIUC) 发表: arXiv 预印本, 2025年3月链接: arXiv:2503.01935领域: 多智能体系统、基准测试、LLM 评估

一句话总结

MultiAgentBench 是首个同时评估 LLM 智能体"任务完成度"和"协调质量"的基准测试，涵盖研究协作、Minecraft 建造、狼人杀等六大场景，揭示了多智能体系统的涌现行为模式。

研究背景与动机

为什么需要多智能体基准测试？

单智能体系统虽然表现出色，但存在局限：

单智能体	多智能体
单独运行	协作、协调、联合规划
任务执行效率有限	可并行处理复杂任务
无法模拟社会互动	真实社交动态模拟

💡 通俗理解: 就像一个人做项目 vs 一个团队做项目——多智能体系统需要评估的不仅是"做得好不好"，还有"合作得好不好"。

MARBLE 框架

研究者提出了 MARBLE (Multi-Agent aRena for Benchmarking LEadership) 框架：

┌─────────────────────────────────────────────────────────────┐
│                    MARBLE 评估框架                          │
├─────────────────────────────────────────────────────────────┤
│  任务完成度 (Task Completion)                               │
│  ├─ 里程碑 KPI：各智能体对关键节点的贡献                     │
│  ├─ 任务分数：基于评分标准或规则的最终评估                   │
│  └─ 输出质量：最终产出的质量评分                            │
├─────────────────────────────────────────────────────────────┤
│  协调质量 (Coordination Quality)                            │
│  ├─ 沟通分数：LLM 评估的 5 分制                             │
│  ├─ 规划分数：策略适应性评估                                │
│  └─ 综合协调分数                                            │
└─────────────────────────────────────────────────────────────┘

KPI 计算公式

KPI = Σ (各智能体的里程碑贡献) / 总里程碑数

每个智能体的贡献由其在关键任务节点的表现决定。

六大评估场景

场景分类

场景	目标类型	智能体数	核心挑战
研究协作	共同目标	多人	共同撰写研究提案
Minecraft 建造	共同目标	多人	协作完成建筑任务
数据库诊断	共同目标	多人	跨专业领域错误分析
编程挑战	共同目标	多人	集体解决编程问题
狼人杀	冲突目标	多人	对抗性社交推理
讨价还价	冲突目标	2人	资源分配谈判

共同目标 vs 冲突目标

共同目标场景                      冲突目标场景
┌─────────────────┐              ┌─────────────────┐
│  研究、编程、   │              │  狼人杀：       │
│  Minecraft、    │              │  村民 vs 狼人   │
│  数据库诊断     │              │                 │
│                 │              │  讨价还价：     │
│  全员利益一致   │              │  利益对立       │
└─────────────────┘              └─────────────────┘

协调拓扑结构

研究测试了四种不同的多智能体协调协议：

1. 星形拓扑 (Star)

        ┌───────┐
        │ 规划者 │
        └───┬───┘
       ╱    │    ╲
      ╱     │     ╲
   ┌───┐  ┌───┐  ┌───┐
   │ A │  │ B │  │ C │
   └───┘  └───┘  └───┘

特点: 单一中央规划者
优势: 决策统一
劣势: 规划者成为瓶颈

2. 链式拓扑 (Chain)

   ┌───┐ → ┌───┐ → ┌───┐ → ┌───┐
   │ A │   │ B │   │ C │   │ D │
   └───┘   └───┘   └───┘   └───┘

特点: 顺序传递
优势: 流程清晰
劣势: 延迟累积

3. 树形拓扑 (Tree)

            ┌───────┐
            │ 总规划│
            └───┬───┘
           ╱         ╲
    ┌───────┐     ┌───────┐
    │子规划A│     │子规划B│
    └───┬───┘     └───┬───┘
       ╱ ╲           ╱ ╲
     ┌─┐ ┌─┐       ┌─┐ ┌─┐
     │a│ │b│       │c│ │d│
     └─┘ └─┘       └─┘ └─┘

特点: 层级分解
优势: 复杂任务分解
劣势: token 消耗高，性能差

4. 图形拓扑 (Graph)

   ┌───┐ ←──→ ┌───┐
   │ A │      │ B │
   └───┘ ╲  ╱ └───┘
          ╲╱
          ╱╲
   ┌───┐ ╱  ╲ ┌───┐
   │ C │ ←──→ │ D │
   └───┘      └───┘

特点: 全连接网格
优势: 信息流动自由
劣势: 协调复杂度高

实验结果

模型性能对比

模型	研究协作	编程挑战	协调分数	特点
gpt-4o-mini	84.13%	65.10%	中等	任务完成度最高
Meta-Llama-3.3-70B	中等	中等	高	协调能力强
Claude 系列	中等	高	中等	编程场景优势

关键发现

⚠️ 核心洞察: "协调分数高不保证任务成功" —— 好的沟通不等于好的结果。

规划策略对比

策略	协调分数	任务完成度	适用场景
认知进化规划	最高	高	需要持续适应的任务
图形协议	高	研究场景最佳	知识密集型任务
树形协议	低	低	⚠️ 不推荐（高消耗低性能）

涌现行为发现

研究观察到三种涌现行为模式：

1. 策略性信息共享

智能体 A: "我有关于市场趋势的数据..."
智能体 B: (选择性分享) "我这边的用户反馈是..."

→ 智能体会根据自身利益选择性披露信息

2. 信任极化协作

同角色智能体 → 高度信任 → 深度合作
异角色智能体 → 低信任 → 谨慎互动

→ 角色身份驱动合作模式

3. 角色驱动策略迭代

初始阶段: 保守策略，观望为主
中期阶段: 逐渐展现领导力
后期阶段: 根据形势调整角色定位

→ 智能体会从保守转向领导角色

消融实验洞察

迭代次数影响

迭代次数   1-3    4-7    8-10   >10
任务分数    ↑      ↑↑     峰值    ↓
协调分数    ↑      ↑↑     峰值    ↓

→ 最佳迭代次数约为 7 次

智能体数量影响

智能体数	协调效果	KPI
1	基准	高
3	最佳	中高
5+	下降	下降

"随着团队扩大，KPI 下降——协作复杂度增加导致效率降低。"

这与人类团队管理的经验高度一致——"两个披萨原则"（团队规模不应超过两个披萨能喂饱的人数）。

实际应用启示

1. 多智能体系统设计

场景类型	推荐拓扑	智能体数
研究/知识型	图形	3-5
流程型任务	链式	2-4
对抗性场景	星形	根据游戏规则

2. 模型选择建议

需求	推荐模型
高任务完成度	gpt-4o-mini
高协调能力	Llama-3.3-70B
编程任务	Claude 系列

3. 迭代与规模控制

迭代次数: 控制在 7 次左右
团队规模: 3 人为最佳平衡点
避免: 树形拓扑（高消耗低回报）

研究局限性

局限	说明
场景多样性有限	仅 6 种场景
模型覆盖不完整	未测试所有主流模型
记忆机制探索不足	长期记忆影响未研究
缺乏开放式任务	任务边界明确

总结

MultiAgentBench 为多智能体 LLM 系统提供了首个综合性评估框架：

贡献	意义
双维度评估	任务完成 + 协调质量
六大场景	覆盖合作与对抗
四种拓扑	探索不同协调模式
涌现行为发现	揭示智能体社会动态

💡 核心洞察: 多智能体系统的成功不仅取决于单个智能体的能力，更取决于它们如何协调——好的团队合作比强大的个体更重要。

MultiAgentBench：评估 LLM 智能体的协作与竞争 ​

一句话总结 ​

研究背景与动机 ​

为什么需要多智能体基准测试？ ​

MARBLE 框架 ​

KPI 计算公式 ​

六大评估场景 ​

场景分类 ​

共同目标 vs 冲突目标 ​

协调拓扑结构 ​

1. 星形拓扑 (Star) ​

2. 链式拓扑 (Chain) ​

3. 树形拓扑 (Tree) ​

4. 图形拓扑 (Graph) ​

实验结果 ​

模型性能对比 ​

关键发现 ​

规划策略对比 ​

涌现行为发现 ​

1. 策略性信息共享 ​

2. 信任极化协作 ​

3. 角色驱动策略迭代 ​

消融实验洞察 ​

迭代次数影响 ​

智能体数量影响 ​

实际应用启示 ​

1. 多智能体系统设计 ​

2. 模型选择建议 ​

3. 迭代与规模控制 ​

研究局限性 ​

总结 ​

参考资料 ​