Web Data Landscape
Web Agent 面对的是搜索、抽取、浏览器执行、数据订阅和深度研究的综合市场。相关产品从传统爬虫基础设施到 AI-native DeepSearch 都有覆盖。
Product patterns
| Pattern | Representative products | Strength | Fit |
|---|---|---|---|
| DeepSearch Agent | Parallel | 多跳研究、结构化事实、来源验证 | 深度调研和 Agent 自动研究 |
| Independent search index | Brave | 搜索延迟低、索引独立、隐私友好 | 快速搜索和 RAG 摘要 |
| Trend intelligence | MeetGlimpse | 趋势发现、预测、营销数据 | 品牌、电商、投资和咨询场景 |
| Proxy and scraping infra | Bright Data | IP 池、地域定向、成熟抓取能力 | 大规模合规采集 |
| API marketplace | RapidAPI | 第三方 API 聚合、统一计费 | 快速试用和接入多 API |
What Web Agent should pursue first
Web Agent 的第一阶段应优先追赶 AI-native 数据能力,而不是直接变成重型爬虫平台:
- Search:给 Agent 快速、高密度、可引用的搜索结果。
- Extract/Textify:把网页、PDF 和动态内容转化为 Markdown。
- Do/Track:支持可控浏览器动作与页面变化监控。
- Sandbox:把浏览器执行和文件处理放进隔离环境。
SAK differentiation
Web Agent 的差异化来自与其他 SAK 模块组合:
- 更准:GUM 让搜索能使用用户画像和历史上下文进行 Query Rewrite。
- 更安全:GenAuth 让受保护资源访问带有明确身份和授权边界。
- 更可控:来源与执行轨迹让搜索、抽取和行动过程可以被复查。
- 更工程化:Textify 和 Sandbox 降低开发者维护浏览器与解析链路的成本。
Product posture
Web Agent 应该被表达为面向 Agent 的 web action/data infrastructure,而不是传统爬虫 SDK。它的核心承诺是:让开放 web 成为 Agent 可以可靠使用的实时数据层。