過去一年所有 agent 創業公司在卷兩個極端：要么 skip-all-permissions 一把梭（Devin、Cognition 那條路），要么瘋狂彈窗 approve/deny（Cursor 早期）。Anthropic 走了第三條路：訓練模型自己判斷什麼該問、什麼不該問，並把這個判斷力內化進 auto mode。

KAI: Alan，這跟 skip permissions 有啥本質區別？不都是放手讓它跑？

ALAN: 區別大了。skip 是你把保險栓拔了，出事你負責。auto 是模型自己裝了一套保險——危險操作它主動停下問你，低風險自己處理。本質是把 “permission UI” 這一整層，從產品外殼挪到了模型權重裡。

TONY: 所以 YC 那一堆做 “agent 治理 / guardrails” 的初創…

ALAN: 產品等於被做進模型了。這就是 Andrej 去年說的 “the model is the product”，活生生的例子。

KILL LIST

→ Agent guardrails / approval-flow SaaS——那些做"人機協同審批平台"的，整個品類被降維

→ RPA 傳統行業（UiPath / Automation Anywhere）——它們的核心價值就是"可控的自動化"，現在可控自己內生了

→ BPO 外包行業的中后台——菲律賓印度那些數據錄入、客服分派、發票對賬，auto mode 跑一天，一個團隊的活

—— BLADE NO. 03

/ultrareview——給 Senior Engineer 的一張刺殺令

官網用詞：“a dedicated review session that reads through changes and flags bugs and design issues that a careful reviewer would catch.”

注意那個詞——“a careful reviewer”。不是 junior，不是 linter，是"careful reviewer"。翻譯成人話： senior engineer。

CodeRabbit 的 David Loker 給的數字更直接：recall 涨 10% 以上，在最複雜的 PR 裡面挖出最難抓的 bug，precision 幾乎沒掉。recall 涨、precision 不掉——code review 領域裡，這就是 holy grail，上上一個拿到這個組合的叫 Google 內部的 Tricorder，做了十年。

MARCUS: 我們 FAANG 一個 staff eng 一年 $800K，review PR 占一半時間。這東西如果真能打…

ALAN: Pro 和 Max 用戶免費給三次 ultrareview，讓你試毒。這是硅谷慣用的 “freemium 下毒” 套路——給你嘗到味道，再讓你回不去。

MARCUS: 所以這不是工具，是替身。

ALAN: 不完全。它不替掉 staff，它替掉 staff 每天下午 review 十個 PR 那兩小時。釋放出來的那兩小時，senior 才是 senior，不是人肉 GitHub bot。

落地場景

一個二十人工程團隊，原來 tech lead 每天花三小時 review PR。上 /ultrareview，tech lead 只需要看 Claude 標紅的那幾個 “design issue”——三小時變二十分鐘，省下的時間真的去做架構。這不是"AI 輔助"，是崗位職責重寫。

KILL LIST

→ 所有獨立的 AI code review 創業公司——CodeRabbit、Codacy、Qodo，它們現在是 Anthropic 的 feature

→ SAST / DAST 傳統安全掃描工具（Snyk / Checkmarx）——規則驅動的靜態掃描，被"像人一樣讀代碼"的方式碾過

→ 印度 / 東歐外包 code review 服務——這個市場過去十年估值幾十億美金，現在直接蒸發

—— BLADE NO. 04

2,576 像素視覺——Computer-Use 從 Demo 變武器

“可接受圖像長度到 2,576 像素，約 3.75 兆像素，是之前三倍多。”

這一條最被低估。大部分人看到就覺得"哦更高清了"。錯得離譜。這是 computer-use 這整個品類從 demo 進入 production 的分水嶺。

證據在發布頁最下面那個引用塊裡, XBOW 的 CEO Oege de Moor 說的一句話——

54.5% → 98.5%。這不是一個漸進的提升，這是一個從"不能用"到"不能不用"的躍遷。Opus 4.6 還在猜螢幕上的按鈕在哪，4.7 已經能讀密集儀表盤上的小字和嵌套表格。

SARAH: 我們企業客戶一直卡在這個點。4.6 讓它自動處理發票掃描件，錯一半 —— 老闆直接說"別玩了"。

ALAN: 現在 98.5% 這個數字，意味着 RPA、IT 運維、報銷審計、老系統搬遷 —— 所有還靠人眼看螢幕的工作流，第一次有了可以接受的托底模型。

KAI: computer use 不再是 demo video，是生產力。

ALAN: 對，而且注意——這是模型層面的升級，不是 API 參數。老用戶什麼都不改，自動吃到。Anthropic 在悄悄把所有集成方的產品力往上推一截。

KILL LIST

→ OCR / 文件理解 SaaS（Rossum / Hyperscience / Nanonets）——它們的 moat 本來就是"視覺+結構化"，現在被通用模型追平甚至超越

→ 傳統 RPA 三巨頭——UiPath 的螢幕識別核心技術，價值一夜蒸發一半

→ 企業應用數據錄入部門——醫療保險理賠、銀行 KYC、政府表格處理，整條人肉流水線

→ 自主滲透測試 / red team 行業——XBOW 這種公司反而吃到紅利，但傳統 pentesting 顧問服務被打穿

—— BLADE NO. 05

File-System Memory——Anthropic 選了最樸素那條路

發布會一條腳註：“Opus 4.7 is better at using file system-based memory. It remembers important notes across long, multi-session work.”

OpenAI 走的是 “embedded memory”——把記憶糊在模型裡，你看不到、也改不了。Google 在搞神祕的 infini-attention。Anthropic 這次亮牌了：文件系統就是記憶。 Claude 寫 .md 笔記，讀 .md 笔記，你隨時能 cat 出來看。

這個選擇看似 low-tech，實際上是第一性原理的勝利。記憶的核心問題從來不是存儲，是可審計、可編輯、可遷移。向量資料庫和 embedded memory 都違背這三點。

ERIC: 企業客戶最怕的就是"這 AI 到底記住了我什麼，我不知道"。

ALAN: 文件系統記憶直接解決合規。GDPR 刪除權？rm 一下。SOC2 審計？cat 給審計師看。這不是技術優勢，是法律優勢。

ERIC: 所以那些做 “AI memory layer” 的創業公司…

ALAN: Mem0、LangMem、Zep —— 這一年的融了不少錢。它們解決的是"模型自己不會管記憶"，Anthropic 把這個能力寫進了模型裡，而且用的是最樸素的 POSIX 文件系統。中間層被跳過。

KILL LIST

→ AI Memory 基礎設施初創（Mem0 / LangMem / Zep）——價值主張被內化到模型

→ 部分向量資料庫的 agentic memory 使用場景——Pinecone、Weaviate 的一條主要敘事受影響

→ 企業知識管理 SaaS 的 AI 增強層——不需要第三方中間件了，Claude 直接讀寫項目文件

—— BLADE NO. 06

Task Budgets——給 Agent 裝刹車，然後鬆開油門

“Giving developers a way to guide Claude’s token spend so it can prioritize work across longer runs.”（public beta）

這個被所有媒體漏掉了，但它是長程 agent 這一年最重要的工程突破。

過去一年所有 agent 公司都在對同一個惡魔：長任務的 token 失控。給 Devin 或者 Cursor 一個複雜任務，它自己跑兩個小時，回來告訴你燒掉了 $800，活兒只幹了一半。老闆看到账單眼睛都綠了。

Task budget 的設計非常巧妙——不是簡單的 token 上限，而是讓模型自己看到預算在倒數，自己決定跳過哪些步驟、怎麼把活兒做到最關鍵的完成度。

CLAIRE: 這不就是工程項目管理的"最小可交付"思維？

ALAN: 對。Anthropic 把 scope-cutting 這個 PM 技能，訓進模型了。給你 $10 預算跑 agent，它會自己決定哪個功能做到 80% 就收，哪個必須做到 100%。

TONY: 所以 Notion 那個 quote——"implicit-need tests"第一個能通過——

ALAN: 對上了。模型開始有"資源意識"，能猜出你沒說但期望的東西，在預算內優先保。這是把 “senior engineer judgment” 訓進去了。

KILL LIST

→ AI cost-control / LLM 可觀測創業（Helicone / Langfuse 成本模塊）——核心功能被 native 化

→ Agent orchestration 框架（部分 LangGraph / CrewAI 用法）——模型自己能規劃預算，不需要外層調度

→ 傳統諮詢行業的項目管理部分——"資源分配 + 交付裁剪"這一層智力，被模型幹了

—— BLADE NO. 07

寫代碼前先做 Proof——Vercel 發現的新行為

Joe Haddad, Distinguished Eng at Vercel: “It even does proofs on systems code before starting work, which is new behavior we haven’t seen from earlier Claude models.”

這一句被埋在二十多條 quote 裡面，沒人放大。但老 OG 讀到這兒直接把咖啡放下了。☕️

“proofs on systems code”——在寫系統級代碼之前，模型會先自己做數學/形式化證明。這不是更聰明的意思，這是模型開始在用跟 PhD 驗證論文一樣的方法驗證自己的代碼。

MARCUS: 這個行為出現在訓練數據裡，說明 Anthropic 在 RL 階段明確獎勵了"先證明後寫碼"。

ALAN: 對，這是有意識地訓練出來的。組合 Vercel 那段和 Genspark 的"loop resistance"、以及 Hex 的"correctly reports when data is missing instead of plausible-but-incorrect fallbacks"——你看到的是一個完整的品味訓練工程：讓模型開始像不好騙的工程師一樣工作。

MARCUS: 不好騙——意思是不自欺。

ALAN: 對。Opus 4.7 不再為了完成任務而給你編一個看起來能跑的方案。這是 alignment 實打實落到產品層面的一次體現。

KILL LIST

→ 形式化驗證工具細分市場（部分）——Coq/Lean/TLA+ 這些高門檻工具的一部分入門場景，模型自己幫你搞

→ 高频交易 / 區塊鏈安全審計行業——審計員核心工作（“讀代碼找不變量違反”）被模型協作化，審計單價被壓

→ 操作系統內核 / 嵌入式外包——那些需要 proof-based reasoning 的細分，門檻被拉平

—— BLADE NO. 08

Cyber Verification——監管套利的窗口被打開了

“During its training we experimented with efforts to differentially reduce these capabilities.”

最騷的操作在這裡。Anthropic 承認在訓練過程中主動降低了 Opus 4.7 的網絡攻防能力，因為背後那個更強的 Mythos Preview 不放出來。然後 ——

然後他們開了一個 Cyber Verification Program，讓合法的安全研究員、pentester、red team 认证后可以解鎖更高权限。

ERIC: 這…這不就是出口管制的模型版？

ALAN: 更準確地說，是 “能力 KYC”。模型有三層能力閘門，你證明身份才能解鎖相應層級。監管套利的窗口第一次被 AI 公司自己明碼標價。

ERIC: 對創業公司意味著什麼？

ALAN: 第一，通用"AI + 安全"的創業，想做高端場景得先拿 Anthropic 的認證，供應鏈本身就被管。第二，一個全新的品類會出現：幫你通過 Anthropic 認證的諮詢服務——就像今天幫你通過 SOC2 的公司一樣。第三，這是 Anthropic 在練手未來所有 frontier model 的放出方式，Mythos 放出只會更嚴。

TONY: 所以 Palantir、Booz Allen 這種政府合規身家的公司…

ALAN: 白捡一層護城河。他們本來就有清算級身份，現在天然解鎖頂層模型。

落地場景

一個想做 AI pentesting 的 YC 創業者，2026 年 Q2 起，商業計劃書第一頁必須回答"你們有沒有拿到 Anthropic Cyber Verification"。沒有？VC 不投。拿到？估值乘 2。一個認證，資本市場的分水嶺。

KILL LIST & 新賽道

→ 通用網絡安全創業 SaaS——沒有 Anthropic 認證的，拿不到上層模型能力，天花板被鎖死

→ "AI 模型能力合規諮詢"新賽道誕生——未來 12 個月會冒出一批幫企業做 frontier model 認證的中介

→ 傳統軍工、政府系集成商（Palantir / Booz Allen）——天生受益，門檻變成護城河

→ 開源 / 本地部署陣營——Llama、Qwen、DeepSeek 路線反而受益，"不認證也能用"成為核心賣點

Alan Walker 把空杯推到桌邊，合上 MacBook。

窗外 California Ave 的太陽已經爬過 Palo Alto Creamery 的屋頂，斜光打在玻璃上。

“八把刀，砍向八個方向。有些賽道今天開始死，有些今天開始生。”

"每一代 frontier model 的發布，真正的東西都不寫在 Headline 上。"他對 Tony 說，“發布會是給分析師看的。腳註和 quote 裡的數字，才是給我們看的。”

“別看熱鬧。”

— Alan

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
WCTC交易王PK
40.33萬熱度
#
#聯準會利率不變但內部分歧加劇#
2.71萬熱度
#
Polymarket每日熱點
72.62萬熱度
#
比特幣現貨交易量新低
16267.13萬熱度
#
油價突破110美元
87.38萬熱度

Anthropic 最新模型 Opus4.7 的 8 把 Hidden Blades

熱門話題

WCTC交易王PK

#聯準會利率不變但內部分歧加劇#

Polymarket每日熱點

比特幣現貨交易量新低

油價突破110美元

置頂