Anthropic 上週四(2026-05-28)凌晨悄悄丟出 Claude Opus 4.8,距離 4.7 上線只隔了 41 天。沒開發布會、沒辦直播、發了一篇 blog 就上線了。但這次的更新一點都不「小修小補」:能同時派出 1,000 個分身平行幹活,Fast 模式價格直接砍到剩三折,數學奧林匹克 USAMO 2026 從上一代的 69.3 分,一口氣衝到 96.7 分。
本文用「人話 + 散戶視角」把這次更新拆給你看:到底改了什麼、為什麼這次升級值得抬頭看一下、它跟 GPT-5.5 和 Gemini 3.5 怎麼比,以及如果你只是個一般使用者,到底該不該升上去。截至 2026 年 6 月,下面這些數字都是官方公告 + 第三方 benchmark 平台交叉確認的。
一句話總結:這是 Anthropic 第一次把「Agent 工廠」直接塞進產品
過去你跟 Claude 講話,是「一對一」。你問一句,他答一句,最多開個 Artifact 或 Side Panel。Opus 4.8 改了這件事。新功能叫做 Dynamic Workflows(動態工作流),運作邏輯是這樣:
- 你下一條指令(例如「幫我把整個 codebase 從 Vue 2 遷到 Vue 3」)
- Claude 自己寫一份「分工腳本」
- 同一個 session 內生成幾百個 subagent(子代理),每個負責一塊獨立任務
- 有專門的「對抗 agent」負責挑毛病,跟結果打架
- 跑到答案收斂為止,最後彙整回報給你
研究預覽(research preview)階段的硬上限是 1,000 個 subagent、同時最多 16 個並行。Max / Team 方案預設開啟,Enterprise 要管理員自己打開。這個東西對於跑「跨幾十萬行 code 的 migration」這類任務,差別是「跑一週」跟「跑一個下午」的差別。
用人話講:以前是你雇了一個很厲害的助理。現在 Anthropic 把助理升級成一個能自己招 1,000 個下屬、還自己組品管團隊的小老闆。你只負責下指令、看報告。
三個你會在意的硬數字
1. 寫 code:SWE-bench Verified 88.6%、SWE-bench Pro 69.2%
SWE-bench Verified 是業界用來考 AI 寫真實 GitHub bug 修復能力的考試。Opus 4.7 拿 87.6 分,4.8 升到 88.6 分。看起來只多一分,但更關鍵的是難度更高的 SWE-bench Pro:4.7 是 64.3 分,4.8 拉到 69.2 分,同個 benchmark 下 GPT-5.5 只有 58.6 分、Gemini 3.1 Pro 只有 54.2 分。換句話說,要拿 Claude 來寫真正的 production code,目前確實沒對手能打。
還有一個很實用的進步:Anthropic 自己量出來,Opus 4.8 比 4.7 「少放水四倍」。意思是面對有問題的 code,它願意主動告訴你「這裡可能有 bug」的機率高了 4 倍,而不是默默讓你踩雷。寫過 Vibe Coding 應該都知道,這個能力比多 1% 準確率重要太多。
2. 用瀏覽器:Online-Mind2Web 84%、OSWorld-Verified 83.4%
這兩個 benchmark 是考 AI 能不能像人一樣操作瀏覽器跟電腦桌面:看 UI、點按鈕、填表單、處理彈窗。Online-Mind2Web 84% 是這個項目目前所有公開模型的最高分;OSWorld-Verified 83.4% 也壓 GPT-5.5(78.7%)和 Gemini 3.1 Pro(76.2%)。所以拿 Claude 配 computer use API 來做「自動操作網銀 / 自動查資料 / 自動填報表」這類流程,現在是最佳選擇。
3. 算數學:USAMO 2026 拿 96.7 分
USAMO(美國數學奧林匹克)2026 這份考卷,Opus 4.7 只考了 69.3 分。4.8 考到 96.7 分。一代之內漲了快 30 分,這個進步幅度在 AI 圈這幾個月都很少見。為什麼一個 AI 模型該對奧數那麼強?因為它直接決定模型能不能處理財務模型、套利計算、智能合約裡的數學邏輯。對於 quant 跟做 DeFi 策略的人,這個分數比寫 code 還關鍵。
價格:標準價沒漲,Fast 模式打三折
這是這次更新最沒被注意到、但實際上對重度用戶最有感的一條:
| 類型 | Opus 4.7 | Opus 4.8 | 差異 |
|---|---|---|---|
| 標準 input | $5 / M token | $5 / M token | 持平 |
| 標準 output | $25 / M token | $25 / M token | 持平 |
| Fast 模式 input | $30 / M token | $10 / M token | 砍 67% |
| Fast 模式 output | $150 / M token | $50 / M token | 砍 67% |
Fast 模式(你開 Claude Code 比較急的時候會用到的那個)整個砍三折。這代表 Anthropic 後端模型推理成本明顯下來了,而他們選擇把節省的成本還給用戶,而不是塞進毛利。對拿 Claude Code 在跑大 codebase 的工程師來說,每月帳單砍 60% 以上是常態。
跟 GPT-5.5 和 Gemini 3.5 怎麼比?
這個季度 OpenAI、Google、Anthropic 連珠炮放了三發旗艦:GPT-5.5 Instant(5 月初)、Gemini 3.5 Flash(5 月 19 日)、Claude Opus 4.8(5 月 28 日)。三家定位完全不同,挑哪個用要看你在意什麼:
| 項目 | Claude Opus 4.8 | GPT-5.5 | Gemini 3.5 Flash |
|---|---|---|---|
| 智能指數(綜合) | 61.4(第一) | 中段 | 55.3 |
| 標準價(in/out 每 M token) | $5 / $25 | 主流定價 | $1.5 / $9 |
| SWE-bench Pro | 69.2% | 58.6% | — |
| Terminal-Bench 2.1 | 74.6% | 領先 | 76.2% |
| GDPval-AA(職業任務) | 1,890 | 1,769 | 1,314 |
| 速度 | 偏慢、出 token 多 | 中速 | 最快 |
| 最適合誰 | 寫 code、深度推理、agent 編排 | 日常 agent、性價比偏中 | 大量便宜便快的任務 |
用最直白的話總結:Opus 4.8 是「智能最高、最貴、最慢」,Gemini 3.5 Flash 是「便宜 4 倍、快 4 倍、但智能少一截」,GPT-5.5 卡中間。每個輸出美金能換到的智能分,Gemini 大約是 Opus 的 2.4 倍。所以如果你在跑大量自動化任務,Gemini 是性價比之選;但只要任務複雜度往上拉一階,Opus 還是值那個價。
對「不寫 code 的散戶用戶」有什麼直接影響?
如果你只是用 Claude 來處理日常事務(讀 PDF、寫摘要、整理研究、寫貼文),下面四點是這次升級你會直接感受到的差異:
- 它會主動承認不知道。Anthropic 把這次的核心定位寫成「更誠實」。實測下來,問它「這支幣的 tokenomics 細節」、「這個小幣的真實流通量」這類資料,現在比較常聽到它說「這部分我手上的資料只到 X 月,建議直接查 CoinGecko」。少了一堆好像很有道理但其實亂編的回答。
- 長任務可以一次交給它。之前你要把「整理過去三個月所有 ETF 流入流出 + 找出三個重點異常 + 寫成報告」拆成 5、6 個 prompt。現在丟一句話進去,它會自己用 Dynamic Workflows 派任務、自己驗證、最後給你一份報告。
- Effort 等級可以自己調。新介面有 Low / Medium / High / Max 四檔思考強度。日常聊天放 Low 省 token,寫研究文丟 Max 給它深思。對於 Claude.ai / Cowork 用戶來說,這直接決定你每月 Pro 訂閱被吃掉的速度。
- Claude Code 變更便宜了。Fast 模式砍三折之後,本來覺得用 Claude Code 跑 vibe coding 太貴的,可以重新算一次帳。對於還在用 Cursor / Copilot 為主的人,可以開個 Pro 帳號試一個月再決定要不要主用。
幾個踩雷點,別當完美無瑕的銀彈
講完優勢,下面這幾條是我自己用了三天的感想,沒人寫,但你該知道:
- Terminal-Bench 2.1 輸給 Gemini 3.5 Flash。單看「在終端機裡跑指令」這個項目,Opus 4.8 拿 74.6 分、Gemini 3.5 Flash 拿 76.2 分。所以如果你的活集中在 DevOps、shell 自動化、純命令列,Gemini 不一定比較差。
- Dynamic Workflows 不是給你拿來「省思考」的。1,000 個 subagent 聽起來很爽,但你下的母 prompt 沒寫好,1,000 個分身一起跑歪,token 是真的會燒到你哭。這個功能適合「任務本身可以結構化拆分」的場景(codebase migration、大量資料抽取),不適合「我也不太確定要幹嘛」的開放式任務。
- 智能指數 61.4 第一,但代價是它「話特別多」。同樣一個問題,Opus 4.8 平均輸出 token 數比 GPT-5.5 高出 30-50%。這代表雖然標準價沒漲,但每次回答的實際支出比 4.7 還貴一點,這部分要自己算。
- Research preview = 還在實驗。Dynamic Workflows 目前是研究預覽,Anthropic 自己也說 SLA 還沒到 GA 等級。所以拿來跑 production / 正式給客戶用的工作流,建議先在內部跑兩週確認穩定再上。
結論:值不值得升?看你是哪一種用戶
- 每天用 Claude Code 寫 code 的工程師:直接升、沒得選。SWE-bench Pro 多 5 分、bug 漏報少 4 倍、Fast 模式砍三折,這三件事任一條都值回升級成本。
- 跑 agent、做自動化 workflow 的:直接試 Dynamic Workflows。能不能把工時砍掉 80% 就看你願不願意把任務寫得夠結構化。
- 用 Claude.ai 處理研究跟內容的:升上去主要圖兩件事:少胡編亂造、Effort 等級可調。內容創作者特別推。
- 只是日常聊天的:其實 4.7 跟 4.8 差距你不會太有感,可以慢慢觀察 4.8 的速度有沒有比較慢。如果差很多,回頭用 4.7 也行。
- 看重性價比、預算有限的:同期出的 Gemini 3.5 Flash 智能少一截但便宜 4 倍、快 4 倍。如果你的任務不需要 frontier 智能,那個才是你的選擇。
整個 2026 年 5 月這一波 AI 旗艦更新,最值得記在腦袋裡的不是哪個 benchmark 第一,而是「Anthropic 第一次把『一個指令派 1,000 個分身』寫進產品」。這代表往後一年的競爭,不再只是比誰的單模型聰明,而是比誰能讓模型「自己組團隊、自己派工」。從 GPT 出來開始算,這是 LLM 演化往 agent 時代轉折的第一個具體訊號。
下個月(2026 年 6 月)值得繼續盯的:Anthropic 會不會把 Dynamic Workflows 從 research preview 拉到 GA、Google 會不會推 Gemini 3.5 Pro 把 Flash 補上、OpenAI 會不會在 GPT-5.5 之後一口氣跳 GPT-6 帶 dynamic 系列工具。三家放完籌碼之後,這場 agent 工廠的戰爭才正式開打。
免責聲明:本文僅整理公開資訊作為觀點分享,所有 benchmark 數據截至 2026 年 6 月,請以 Anthropic 官方文件為準。投資加密貨幣或購買 AI 訂閱服務前請自行評估財務狀況。本文不構成投資建議。






發表迴響