Web Agent
Web Agent 是 Agent 面向开放网络的数据入口和执行入口。它把混乱的真实网页转化为 Agent 可以搜索、抽取、清洗和操作的结构化环境。
Core problem
真实网页对 Agent 并不友好:
- 页面结构复杂,HTML 噪声多。
- 动态渲染、PDF、表格和多媒体难以稳定处理。
- 搜索结果需要排序、去重、摘要和来源验证。
- 浏览器动作需要隔离环境和状态追踪。
Web Agent 的目标是让 web 成为 Agent 可消费、可执行的数据层。
API families
| API family | Role |
|---|---|
| Search / SelectAll | 多源搜索、全量数据发现、排序和摘要 |
| Textify | 把复杂网页、PDF 或动态内容转化为 LLM 友好的 Markdown/文本 |
| Do / Track Anything | 让 Agent 执行点击、输入、滚动、监控元素变化等网页动作 |
| Sandboxed Execution | 在隔离浏览器环境中执行任务,降低安全和环境污染风险 |
Differentiation
Web Agent 不只是爬虫工具。它会和 GUM、GenAuth 组合:
- 基于 GUM 的用户画像做个性化查询重写。
- 基于 GenAuth 的身份边界控制受保护资源访问。
- 基于来源和执行轨迹记录搜索、抽取与行动过程。
Best fit
Web Agent 适合需要实时 web 数据、深度调研、垂直行业数据采集、动态网页提取和 Agentic Search 的团队。