15.3 Monte Carlo:用 LangGraph 构建数据 + AI 可观测性代理

来源:Monte Carlo: Building Data + AI Observability Agents with LangGraph and LangSmith
公司简介
Monte Carlo 是领先的数据和 AI 观测平台,专为企业服务。该公司帮助组织:
- 监控数据和 AI 可靠性问题
- 追踪问题的根本原因
- 确保数据质量和可用性
经过多年开发复杂的数据监控工具,Monte Carlo 意识到他们已为旗舰 AI 代理奠定了基础——该系统能启动数百个子代理调查数据问题。
面临的挑战
企业数据工程师每天面临大量重复性工作:
| 任务 | 痛点 |
|---|---|
| 手动排查数据告警 | 耗时且容易遗漏 |
| 调查失败任务 | 需要顺序执行 |
| 追踪代码变更 | 上下文切换频繁 |
| 判断问题优先级 | 缺乏全局视角 |
核心问题:人类工程师必须顺序执行调查,无法并行处理多个问题分支。
为什么选择 LangGraph
Monte Carlo 选择 LangGraph 的原因:
- 自然映射:调查流程天然映射到基于图的决策流
- 快速上线:4 周内完成可演示的解决方案
- 超越自定义:比自建方案更可行、更高效
技术架构
LangGraph 工作流程

告警触发 → 检查代码变更 → 分析时间线 → 调查依赖关系 → 报告发现调查流程

关键能力:
- 检查过去 7 天的代码变更
- 并行探索多个调查分支
- 同时检查多个潜在根本原因
- 以人类工程师无法完成的规模运行
AWS 架构

┌─────────────────────────────────────────┐
│ 前端/用户交互 │
└──────────────┬──────────────────────────┘
│
┌────────▼─────────┐
│ Auth Gateway │
│ Lambda │
└────────┬─────────┘
│
┌──────────┴──────────┐
│ │
┌───▼─────────┐ ┌──────▼──────────┐
│ Monolith │ │ AI Agent │
│ Service │ │ Service │
│ (GraphQL/ │ │ (ECS Fargate) │
│ REST) │ │ │
└───┬─────────┘ └──────┬──────────┘
│ │
┌───▼──────────────────────▼──┐
│ Amazon RDS │
│ (数据持久化) │
└────────────────────────────┘核心 AWS 服务
| 服务 | 用途 |
|---|---|
| Amazon Bedrock | 基础模型推理 |
| ECS Fargate | 容器化微服务自动扩展 |
| Network Load Balancer | 高性能流量分配 |
| RDS | 托管关系数据库 |
LangSmith 调试
产品经理 Bryce Heltzel 表示:
"LangSmith 是我们开始在 LangGraph 中构建代理时的自然选择。我们希望 LangSmith 为我们的基于图的工作流可视化我们正在开发的内容。"
LangSmith 的价值:
- 支持快速的提示工程迭代
- 最小化配置需求
- 产品经理可直接迭代提示,无需工程周期
业务成果
速度优势
代理可并行探索多个调查分支,而人类工程师必须顺序执行。
规模效应
处理的场景数量远超任何单个数据工程师手动处理的能力。
上市时间
4 周内实现可演示的解决方案。
迭代效率
产品经理可直接迭代提示,无需工程周期。
关键洞察
业务影响
"数据保持不正确或不可用会影响数百万美元的业务。"
核心价值
"使数据团队能够比以往更快、更全面地解决问题。"
未来方向
- 专注于可见性和验证
- 构建反馈机制确保代理一致地为客户交付价值
总结
Monte Carlo 的案例展示了如何用 LangGraph 解决复杂的数据可观测性问题:
- 图结构映射:调查流程自然映射到 LangGraph
- 并行处理:突破人类顺序执行的限制
- 快速迭代:LangSmith 支持产品经理直接优化
- 企业级架构:AWS 全托管服务保障可扩展性
这个案例为数据和 AI 可观测性领域的智能代理开发提供了优秀的参考。
上一篇:[15.2 ServiceNow](./15.2 ServiceNow.md)
下一篇:[15.4 Bertelsmann](./15.4 Bertelsmann.md)