15.3 Monte Carlo：用 LangGraph 构建数据 + AI 可观测性代理

Monte Carlo Case Study

来源：Monte Carlo: Building Data + AI Observability Agents with LangGraph and LangSmith

公司简介

Monte Carlo 是领先的数据和 AI 观测平台，专为企业服务。该公司帮助组织：

监控数据和 AI 可靠性问题
追踪问题的根本原因
确保数据质量和可用性

经过多年开发复杂的数据监控工具，Monte Carlo 意识到他们已为旗舰 AI 代理奠定了基础——该系统能启动数百个子代理调查数据问题。

面临的挑战

企业数据工程师每天面临大量重复性工作：

任务	痛点
手动排查数据告警	耗时且容易遗漏
调查失败任务	需要顺序执行
追踪代码变更	上下文切换频繁
判断问题优先级	缺乏全局视角

核心问题：人类工程师必须顺序执行调查，无法并行处理多个问题分支。

为什么选择 LangGraph

Monte Carlo 选择 LangGraph 的原因：

自然映射：调查流程天然映射到基于图的决策流
快速上线：4 周内完成可演示的解决方案
超越自定义：比自建方案更可行、更高效

技术架构

LangGraph 工作流程

Agent Overview

告警触发 → 检查代码变更 → 分析时间线 → 调查依赖关系 → 报告发现

调查流程

Investigation Flow

关键能力：

检查过去 7 天的代码变更
并行探索多个调查分支
同时检查多个潜在根本原因
以人类工程师无法完成的规模运行

AWS 架构

AWS Architecture

┌─────────────────────────────────────────┐
│         前端/用户交互                    │
└──────────────┬──────────────────────────┘
               │
      ┌────────▼─────────┐
      │  Auth Gateway    │
      │  Lambda          │
      └────────┬─────────┘
               │
    ┌──────────┴──────────┐
    │                     │
┌───▼─────────┐    ┌──────▼──────────┐
│ Monolith    │    │  AI Agent       │
│ Service     │    │  Service        │
│ (GraphQL/   │    │  (ECS Fargate)  │
│  REST)      │    │                 │
└───┬─────────┘    └──────┬──────────┘
    │                     │
┌───▼──────────────────────▼──┐
│       Amazon RDS            │
│      (数据持久化)            │
└────────────────────────────┘

核心 AWS 服务

服务	用途
Amazon Bedrock	基础模型推理
ECS Fargate	容器化微服务自动扩展
Network Load Balancer	高性能流量分配
RDS	托管关系数据库

LangSmith 调试

产品经理 Bryce Heltzel 表示：

"LangSmith 是我们开始在 LangGraph 中构建代理时的自然选择。我们希望 LangSmith 为我们的基于图的工作流可视化我们正在开发的内容。"

LangSmith 的价值：

支持快速的提示工程迭代
最小化配置需求
产品经理可直接迭代提示，无需工程周期

业务成果

速度优势

代理可并行探索多个调查分支，而人类工程师必须顺序执行。

规模效应

处理的场景数量远超任何单个数据工程师手动处理的能力。

上市时间

4 周内实现可演示的解决方案。

迭代效率

产品经理可直接迭代提示，无需工程周期。

关键洞察

业务影响

"数据保持不正确或不可用会影响数百万美元的业务。"

核心价值

"使数据团队能够比以往更快、更全面地解决问题。"

未来方向

专注于可见性和验证
构建反馈机制确保代理一致地为客户交付价值

总结

Monte Carlo 的案例展示了如何用 LangGraph 解决复杂的数据可观测性问题：

图结构映射：调查流程自然映射到 LangGraph
并行处理：突破人类顺序执行的限制
快速迭代：LangSmith 支持产品经理直接优化
企业级架构：AWS 全托管服务保障可扩展性

这个案例为数据和 AI 可观测性领域的智能代理开发提供了优秀的参考。

上一篇：[15.2 ServiceNow](./15.2 ServiceNow.md)

下一篇：[15.4 Bertelsmann](./15.4 Bertelsmann.md)

15.3 Monte Carlo：用 LangGraph 构建数据 + AI 可观测性代理 ​

公司简介 ​

面临的挑战 ​

为什么选择 LangGraph ​

技术架构 ​

LangGraph 工作流程 ​

调查流程 ​

AWS 架构 ​

核心 AWS 服务 ​

LangSmith 调试 ​

业务成果 ​

速度优势 ​

规模效应 ​

上市时间 ​

迭代效率 ​

关键洞察 ​

业务影响 ​

核心价值 ​

未来方向 ​

总结 ​