2026-03-13 12:10:23

Cloudflare 刚刚推出了一个 /crawl 端点，大家都炸了。

冷静下来。让我告诉你它到底是什么、不是什么，以及你可能根本用不到它。

/crawl 端点是一个封装器。你提供一个 URL，它会在 Cloudflare 的基础设施上启动无头浏览器，跟随链接，渲染 JavaScript，然后用一个 API 调用返回 markdown 或 JSON。

这很酷，但并不革命。

Firecrawl 做过这个。Crawl4AI 做过这个。Spider 也做过这个。他们已经做了几个月了。Cloudflare 只是把它加入到他们现有的浏览器渲染产品中，然后大家都表现得像他们发明了爬虫一样。

真正有趣的是：这是 Cloudflare。这意味着它很便宜，($0.09/小时)。

但问题是，你可能根本不需要爬虫。

有 8 种方式让 AI 代理读取网页。大多数人直接跳到复杂的方法，其实一个 50 毫秒的 HTTP 请求就能搞定。所以我们从最简单到最过度的逐一分析。

1. 原始 HTTP 获取

你的代理发出请求，得到 HTML。就这样。

就像阅读一本书的源代码，而不是印刷的页面。对简单网站、博客、维基、文档都很适用。在用 JavaScript 加载内容的网站上就不行。

速度：约50毫秒。成本：免费。

2. 可读性解析器

相同的，但带有清理步骤。去除导航栏、广告、页脚、cookie 横幅。只给你干净的 markdown 格式的文章文本。

不能处理 JavaScript 渲染的内容。但对于文章和文档来说，这很完美，也是我每天使用的。

速度：约100毫秒。成本：免费。

3. 无头浏览器 (本地)

启动一个隐形的 Chrome，像人一样加载页面。JavaScript 运行，内容渲染，一切加载完毕。你可以点击、滚动、填写表单、登录。

问题：速度慢，约 2-10 秒，且每个实例消耗约 200MB RAM，你还得维护基础设施。

工具：Playwright、Puppeteer、Selenium。

4. 云端浏览器 API

和 #3 类似，但由别人运行浏览器。你发出 URL，得到渲染好的页面。这就是 Cloudflare 的 /crawl 以及 Browserbase 和 Steel 所做的。

没有基础设施烦恼，容易扩展，价格便宜。权衡：对交互的控制较少。

5. 托管爬取 API

这是反机器人战的高级方案。ScrapingBee、Bright Data、轮换代理、CAPTCHA 破解、住宅 IP。当网站主动反抗你时用。

有效，但价格在每月 $49-499+。

6. AI 原生爬虫

Firecrawl、Crawl4AI、Spider。爬取 + 渲染 + 自动转换成干净的 markdown/JSON。为 RAG（检索增强生成）管道设计。用自然语言定义提取规则。

这是 Cloudflare 现在竞争的“新潮流”。

7. 大型语言模型（LLM）提取

完全跳过代码。将网页内容放入 LLM，问“价格是多少？”用普通英语。没有 CSS 选择器，没有正则表达式，也不用担心网站重设计。

缺点：大规模使用成本高，(tokens 会快速累积。最好作为用方法 1-6 清理后最后一步。

8. 官方 API

大家都忘了这个。X、Reddit、大多数 SaaS 都有 API。结构化数据，无需解析，无需反机器人游戏。当 API 存在时，永远是最佳选择。

好的方案通常结合 2-3 种：

→ 获取 → 可读性 → 用 LLM 低成本提取文章

→ 云端浏览器 → 用 LLM 处理 JavaScript 密集型网站

→ 在 DevTools 中嗅探实际 API → 直接调用，圣杯，免费，最快，最可靠

→ AI 爬虫 → 向量数据库，建立完整知识库

每月 10,000 页的实际成本

• HTTP 请求：) • Jina 阅读器：( • Cloudflare 浏览器：~) • Spider：约 $4.80

• Firecrawl：$47/月

• ScrapingBee：$49-147/月

• Bright Data：$499+/月

我遵循的两个原则：

从简单开始。API > 请求 > 可读性 > 浏览器。只有当更简单的方法失败时，才增加复杂性。我看到有人为 curl 就能用的网站启动 Playwright。

大部分网站不需要 JavaScript 渲染。超过 60% 的网页是静态或服务器渲染的。先用简单请求测试。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate金手指
5.49万热度
#
加密市场普遍上涨
1.9万热度
#
鲍威尔鸽派发言重燃降息预期
281.07万热度
#
特朗普释放停战信号
40.03万热度
#
BTC能否守住6.5万美元？
10142.25万热度

热门 Gate Fun
查看更多

1
BBLB
比比拉布
市值:$2237.93持有人数:1
0.00%
2
CS
测试
市值:$2227.58持有人数:1
0.00%
3
kol
起飞
市值:$2227.58持有人数:1
0.00%
4
koki
koki
市值:$2224.13持有人数:1
0.00%
5
TOKEN
Token
市值:$2318.07持有人数:2
0.44%

Cloudflare 刚刚推出了一个 /crawl 端点，大家都炸了。

热门话题

Gate金手指

加密市场普遍上涨

鲍威尔鸽派发言重燃降息预期

特朗普释放停战信号

BTC能否守住6.5万美元？

热门 Gate Fun

BBLB

比比拉布

CS

测试

kol

起飞

koki

koki

TOKEN

Token

置顶