Benchmarks

SAK 需要通过 Benchmark 建立工程可信度。Benchmark 不只用于模型排名，也用于产品能力定义、质量回归和销售可信度。

Memory benchmarks

Memory Benchmark 可以分为两类：

长上下文理解基准，主要评估模型在长上下文窗口中的准确率。
Agent 专属记忆基准，主要评估长期对话、跨会话检索、状态演变和记忆归因。

LoCoMo

LoCoMo 是对话记忆场景中常被引用的测试方向，适合用于 GUM 的早期 Benchmark 设计。它关注单跳、多跳、时间、常识和对抗性问题，并可结合 Recall@k 与 LLM-as-a-Judge。

GUM 可以围绕以下问题建立测试集：

是否能跨 Session 召回正确事实。
是否能处理事实过期和状态变更。
是否能解释回答引用了哪些记忆。
是否能避免错误记忆导致幻觉。

Web Agent benchmarks

Web Agent 的 Benchmark 应覆盖搜索、抽取、Textify 和浏览器执行：

Search relevance：结果是否相关、来源是否可信。
Extraction fidelity：网页和 PDF 转 Markdown 是否保留关键结构。
Dynamic page handling：是否能处理 SPA、分页、表格和登录态场景。
Action reliability：点击、输入、滚动、监控等动作是否稳定。
Cost and latency：Token、运行时间和失败重试成本是否可控。

Operating rule

Benchmark 不应只是页面上的数字。它应该进入开发流程：

定义任务集。
固化评估指标。
每次核心 Prompt、模型、检索或工具链变化后运行回归。
把失败样本反馈到文档、产品和 SDK 示例中。