Skip to content

Benchmarks

SAK 需要通过 Benchmark 建立工程可信度。Benchmark 不只用于模型排名,也用于产品能力定义、质量回归和销售可信度。

Memory benchmarks

Memory Benchmark 可以分为两类:

  1. 长上下文理解基准,主要评估模型在长上下文窗口中的准确率。
  2. Agent 专属记忆基准,主要评估长期对话、跨会话检索、状态演变和记忆归因。

LoCoMo

LoCoMo 是对话记忆场景中常被引用的测试方向,适合用于 GUM 的早期 Benchmark 设计。它关注单跳、多跳、时间、常识和对抗性问题,并可结合 Recall@k 与 LLM-as-a-Judge。

GUM 可以围绕以下问题建立测试集:

  • 是否能跨 Session 召回正确事实。
  • 是否能处理事实过期和状态变更。
  • 是否能解释回答引用了哪些记忆。
  • 是否能避免错误记忆导致幻觉。

Web Agent benchmarks

Web Agent 的 Benchmark 应覆盖搜索、抽取、Textify 和浏览器执行:

  • Search relevance:结果是否相关、来源是否可信。
  • Extraction fidelity:网页和 PDF 转 Markdown 是否保留关键结构。
  • Dynamic page handling:是否能处理 SPA、分页、表格和登录态场景。
  • Action reliability:点击、输入、滚动、监控等动作是否稳定。
  • Cost and latency:Token、运行时间和失败重试成本是否可控。

Operating rule

Benchmark 不应只是页面上的数字。它应该进入开发流程:

  1. 定义任务集。
  2. 固化评估指标。
  3. 每次核心 Prompt、模型、检索或工具链变化后运行回归。
  4. 把失败样本反馈到文档、产品和 SDK 示例中。

面向 Agent 的身份、记忆与网页行动基础设施。