我注意到市场上的一个有趣趋势。那些不久前像水龙头一样奢侈地消耗代币的公司,现在都在拿着计算器计算账单。免费使用的时代正式结束了。



两年前,一切都很简单。大投资者支付账单,我们写长长的提示,把整份PDF文件投到模型中,没人关心。现在?每个代币都是真金白银。不是虚拟单位,而是真实的现金。

到底发生了什么变化?首先,计算能力的成本急剧上升。对NVIDIA H100芯片的争夺变成了地缘政治冲突。其次,当每日API请求量超过百万时,那微不足道的“1K Tokens”突然变成了抽钱的机器。代币与真实货币等价。

我明白,很多人不明白钱都去了哪里。看一眼账单——震惊。但问题不在价格本身,而在于我们的花费方式。解决办法有三:语义缓存、提示压缩和模型路由。这已经不再是奢侈,而是必需。

语义缓存——最简单的节省方式。用户每天会问“怎么重置密码?”数百次。为什么每次都要启动GPT-4?第一次计算,将结果缓存,后续请求直接从缓存中返回。延迟从秒级变成毫秒,成本几乎为零。

提示压缩——这已经是手术级别的操作。算法分析哪些词是关键,哪些是多余的。可以将1000个代币的文本压缩到300个,同时保持意思。允许机器用自己的语言交流——结果一样,但费用减少70%。

模型路由——这是架构层面的工作。不是所有任务都需要GPT-4。简单的数据提取?路由到便宜的Llama 3 8B或Claude 3 Haiku。复杂的逻辑推理?那就用强大的模型。就像公司里:前台不把问题传给CEO。

我观察了前沿团队的做法。OpenClaw在移动设备上几乎完全控制代币。它不再自由生成,而是让模型填充JSON Schema。这看似限制,但实际上节省了流量。Hermes Agent走的是另一条路——动态内存。保存最近的3到5次对话,用轻量模型总结旧的内容,并存入向量数据库。这不是炫技,而是对上下文的精准控制。

现在最重要的是——思维方式的转变。以前把代币当作消费品。看到折扣就放入购物车。盲目连接LLM到一切,甚至让AI生成餐厅菜单。月底账单——震惊。

现在要转向投资思维。每个代币都是一项投资。问自己:这给我带来了什么?关闭工单的成功率提高了吗?修复错误的时间缩短了吗?还是仅仅娱乐?如果基于规则的功能成本是10美分,而LLM每个代币要1美元,但能提高2%的转化率,那就毫不犹豫地剔除。

我们从“庞大而全面”的解决方案,转向“微小而精确”的打击。当业务问:“AI能读完1000份报告吗?”我会问:“收入能覆盖几百万代币的成本吗?”算一算。节省成本。像店主一样计算代币。

听起来远非技术性,更像农业。但这正是AI产业成熟的标志。无限补贴的时代结束了。剩下的,是懂得架构、知道如何在移动设备上优化、用冷静的数字看待代币的公司。当潮水退去,就能看清谁在裸泳。此次,未学会节省的公司将被淘汰。那些像金子一样珍惜每一滴的人,将会存活下来。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论