广场
最新
热门
资讯
我的主页
发布
TheSmartApe🔥
2026-03-13 12:10:23
关注
Cloudflare 刚刚推出了一个 /crawl 端点,大家都炸了。
冷静下来。让我告诉你它到底是什么、不是什么,以及你可能根本用不到它。
/crawl 端点是一个封装器。你提供一个 URL,它会在 Cloudflare 的基础设施上启动无头浏览器,跟随链接,渲染 JavaScript,然后用一个 API 调用返回 markdown 或 JSON。
这很酷,但并不革命。
Firecrawl 做过这个。Crawl4AI 做过这个。Spider 也做过这个。他们已经做了几个月了。Cloudflare 只是把它加入到他们现有的浏览器渲染产品中,然后大家都表现得像他们发明了爬虫一样。
真正有趣的是:这是 Cloudflare。这意味着它很便宜,($0.09/小时)。
但问题是,你可能根本不需要爬虫。
有 8 种方式让 AI 代理读取网页。大多数人直接跳到复杂的方法,其实一个 50 毫秒的 HTTP 请求就能搞定。所以我们从最简单到最过度的逐一分析。
1. 原始 HTTP 获取
你的代理发出请求,得到 HTML。就这样。
就像阅读一本书的源代码,而不是印刷的页面。对简单网站、博客、维基、文档都很适用。在用 JavaScript 加载内容的网站上就不行。
速度:约50毫秒。成本:免费。
2. 可读性解析器
相同的,但带有清理步骤。去除导航栏、广告、页脚、cookie 横幅。只给你干净的 markdown 格式的文章文本。
不能处理 JavaScript 渲染的内容。但对于文章和文档来说,这很完美,也是我每天使用的。
速度:约100毫秒。成本:免费。
3. 无头浏览器 (本地)
启动一个隐形的 Chrome,像人一样加载页面。JavaScript 运行,内容渲染,一切加载完毕。你可以点击、滚动、填写表单、登录。
问题:速度慢,约 2-10 秒,且每个实例消耗约 200MB RAM,你还得维护基础设施。
工具:Playwright、Puppeteer、Selenium。
4. 云端浏览器 API
和 #3 类似,但由别人运行浏览器。你发出 URL,得到渲染好的页面。这就是 Cloudflare 的 /crawl 以及 Browserbase 和 Steel 所做的。
没有基础设施烦恼,容易扩展,价格便宜。权衡:对交互的控制较少。
5. 托管爬取 API
这是反机器人战的高级方案。ScrapingBee、Bright Data、轮换代理、CAPTCHA 破解、住宅 IP。当网站主动反抗你时用。
有效,但价格在每月 $49-499+。
6. AI 原生爬虫
Firecrawl、Crawl4AI、Spider。爬取 + 渲染 + 自动转换成干净的 markdown/JSON。为 RAG(检索增强生成)管道设计。用自然语言定义提取规则。
这是 Cloudflare 现在竞争的“新潮流”。
7. 大型语言模型(LLM)提取
完全跳过代码。将网页内容放入 LLM,问“价格是多少?”用普通英语。没有 CSS 选择器,没有正则表达式,也不用担心网站重设计。
缺点:大规模使用成本高,(tokens 会快速累积。最好作为用方法 1-6 清理后最后一步。
8. 官方 API
大家都忘了这个。X、Reddit、大多数 SaaS 都有 API。结构化数据,无需解析,无需反机器人游戏。当 API 存在时,永远是最佳选择。
好的方案通常结合 2-3 种:
→ 获取 → 可读性 → 用 LLM 低成本提取文章
→ 云端浏览器 → 用 LLM 处理 JavaScript 密集型网站
→ 在 DevTools 中嗅探实际 API → 直接调用,圣杯,免费,最快,最可靠
→ AI 爬虫 → 向量数据库,建立完整知识库
每月 10,000 页的实际成本
• HTTP 请求:) • Jina 阅读器:( • Cloudflare 浏览器:~) • Spider:约 $4.80
• Firecrawl:$47/月
• ScrapingBee:$49-147/月
• Bright Data:$499+/月
我遵循的两个原则:
从简单开始。API > 请求 > 可读性 > 浏览器。只有当更简单的方法失败时,才增加复杂性。我看到有人为 curl 就能用的网站启动 Playwright。
大部分网站不需要 JavaScript 渲染。超过 60% 的网页是静态或服务器渲染的。先用简单请求测试。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
1人点赞了这条动态
赞赏
1
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
Gate金手指
5.49万 热度
#
加密市场普遍上涨
1.9万 热度
#
鲍威尔鸽派发言重燃降息预期
281.07万 热度
#
特朗普释放停战信号
40.03万 热度
#
BTC能否守住6.5万美元?
10142.25万 热度
热门 Gate Fun
查看更多
Gate Fun
KOL
最新发币
即将上市
成功上市
1
BBLB
比比拉布
市值:
$2237.93
持有人数:
1
0.00%
2
CS
测试
市值:
$2227.58
持有人数:
1
0.00%
3
kol
起飞
市值:
$2227.58
持有人数:
1
0.00%
4
koki
koki
市值:
$2224.13
持有人数:
1
0.00%
5
TOKEN
Token
市值:
$2318.07
持有人数:
2
0.44%
置顶
🤔 此时此刻,全世界只有你还没抽奖了吗?
别盯着盘面看啦,来 #Gate广场 抽个金条压压惊!
第 17 期成长值抽奖进行中,尤其是新朋友,中奖率 100%,真的不打算来“白嫖”一下吗?
🎁 锦鲤清单: 10g 纯金金条、红牛赛车周边、大额体验券...
🚀 极速上车: 广场发帖/点赞攒够 300 积分即可开抽!
👇 戳这里,测测今天的欧气:https://www.gate.com/activities/pointprize?now_period=17
#BTC #ETH #GT
Gate 广场内容挖矿奖励继续升级!无论您是创作者还是用户,挖矿新人还是头部作者都能赢取好礼获得大奖。现在就进入广场探索吧!
创作者享受最高60%创作返佣
创作者奖励加码1500USDT:更多新人作者能瓜分奖池!
观众点击交易组件交易赢大礼!最高50GT等新春壕礼等你拿!
详情:https://www.gate.com/announcements/article/49802
网站地图
Cloudflare 刚刚推出了一个 /crawl 端点,大家都炸了。
冷静下来。让我告诉你它到底是什么、不是什么,以及你可能根本用不到它。
/crawl 端点是一个封装器。你提供一个 URL,它会在 Cloudflare 的基础设施上启动无头浏览器,跟随链接,渲染 JavaScript,然后用一个 API 调用返回 markdown 或 JSON。
这很酷,但并不革命。
Firecrawl 做过这个。Crawl4AI 做过这个。Spider 也做过这个。他们已经做了几个月了。Cloudflare 只是把它加入到他们现有的浏览器渲染产品中,然后大家都表现得像他们发明了爬虫一样。
真正有趣的是:这是 Cloudflare。这意味着它很便宜,($0.09/小时)。
但问题是,你可能根本不需要爬虫。
有 8 种方式让 AI 代理读取网页。大多数人直接跳到复杂的方法,其实一个 50 毫秒的 HTTP 请求就能搞定。所以我们从最简单到最过度的逐一分析。
1. 原始 HTTP 获取
你的代理发出请求,得到 HTML。就这样。
就像阅读一本书的源代码,而不是印刷的页面。对简单网站、博客、维基、文档都很适用。在用 JavaScript 加载内容的网站上就不行。
速度:约50毫秒。成本:免费。
2. 可读性解析器
相同的,但带有清理步骤。去除导航栏、广告、页脚、cookie 横幅。只给你干净的 markdown 格式的文章文本。
不能处理 JavaScript 渲染的内容。但对于文章和文档来说,这很完美,也是我每天使用的。
速度:约100毫秒。成本:免费。
3. 无头浏览器 (本地)
启动一个隐形的 Chrome,像人一样加载页面。JavaScript 运行,内容渲染,一切加载完毕。你可以点击、滚动、填写表单、登录。
问题:速度慢,约 2-10 秒,且每个实例消耗约 200MB RAM,你还得维护基础设施。
工具:Playwright、Puppeteer、Selenium。
4. 云端浏览器 API
和 #3 类似,但由别人运行浏览器。你发出 URL,得到渲染好的页面。这就是 Cloudflare 的 /crawl 以及 Browserbase 和 Steel 所做的。
没有基础设施烦恼,容易扩展,价格便宜。权衡:对交互的控制较少。
5. 托管爬取 API
这是反机器人战的高级方案。ScrapingBee、Bright Data、轮换代理、CAPTCHA 破解、住宅 IP。当网站主动反抗你时用。
有效,但价格在每月 $49-499+。
6. AI 原生爬虫
Firecrawl、Crawl4AI、Spider。爬取 + 渲染 + 自动转换成干净的 markdown/JSON。为 RAG(检索增强生成)管道设计。用自然语言定义提取规则。
这是 Cloudflare 现在竞争的“新潮流”。
7. 大型语言模型(LLM)提取
完全跳过代码。将网页内容放入 LLM,问“价格是多少?”用普通英语。没有 CSS 选择器,没有正则表达式,也不用担心网站重设计。
缺点:大规模使用成本高,(tokens 会快速累积。最好作为用方法 1-6 清理后最后一步。
8. 官方 API
大家都忘了这个。X、Reddit、大多数 SaaS 都有 API。结构化数据,无需解析,无需反机器人游戏。当 API 存在时,永远是最佳选择。
好的方案通常结合 2-3 种:
→ 获取 → 可读性 → 用 LLM 低成本提取文章
→ 云端浏览器 → 用 LLM 处理 JavaScript 密集型网站
→ 在 DevTools 中嗅探实际 API → 直接调用,圣杯,免费,最快,最可靠
→ AI 爬虫 → 向量数据库,建立完整知识库
每月 10,000 页的实际成本
• HTTP 请求:) • Jina 阅读器:( • Cloudflare 浏览器:~) • Spider:约 $4.80
• Firecrawl:$47/月
• ScrapingBee:$49-147/月
• Bright Data:$499+/月
我遵循的两个原则:
从简单开始。API > 请求 > 可读性 > 浏览器。只有当更简单的方法失败时,才增加复杂性。我看到有人为 curl 就能用的网站启动 Playwright。
大部分网站不需要 JavaScript 渲染。超过 60% 的网页是静态或服务器渲染的。先用简单请求测试。