Anthropic 上週四(2026-05-28)凌晨悄悄丟出 Claude Opus 4.8,距離 4.7 上線只隔了 41 天。沒開發布會、沒辦直播、發了一篇 blog 就上線了。但這次的更新一點都不「小修小補」:能同時派出 1,000 個分身平行幹活,Fast 模式價格直接砍到剩三折,數學奧林匹克 USAMO 2026 從上一代的 69.3 分,一口氣衝到 96.7 分

本文用「人話 + 散戶視角」把這次更新拆給你看:到底改了什麼、為什麼這次升級值得抬頭看一下、它跟 GPT-5.5 和 Gemini 3.5 怎麼比,以及如果你只是個一般使用者,到底該不該升上去。截至 2026 年 6 月,下面這些數字都是官方公告 + 第三方 benchmark 平台交叉確認的。

一句話總結:這是 Anthropic 第一次把「Agent 工廠」直接塞進產品

過去你跟 Claude 講話,是「一對一」。你問一句,他答一句,最多開個 Artifact 或 Side Panel。Opus 4.8 改了這件事。新功能叫做 Dynamic Workflows(動態工作流),運作邏輯是這樣:

  1. 你下一條指令(例如「幫我把整個 codebase 從 Vue 2 遷到 Vue 3」)
  2. Claude 自己寫一份「分工腳本」
  3. 同一個 session 內生成幾百個 subagent(子代理),每個負責一塊獨立任務
  4. 有專門的「對抗 agent」負責挑毛病,跟結果打架
  5. 跑到答案收斂為止,最後彙整回報給你

研究預覽(research preview)階段的硬上限是 1,000 個 subagent、同時最多 16 個並行。Max / Team 方案預設開啟,Enterprise 要管理員自己打開。這個東西對於跑「跨幾十萬行 code 的 migration」這類任務,差別是「跑一週」跟「跑一個下午」的差別。

用人話講:以前是你雇了一個很厲害的助理。現在 Anthropic 把助理升級成一個能自己招 1,000 個下屬、還自己組品管團隊的小老闆。你只負責下指令、看報告。

三個你會在意的硬數字

1. 寫 code:SWE-bench Verified 88.6%、SWE-bench Pro 69.2%

SWE-bench Verified 是業界用來考 AI 寫真實 GitHub bug 修復能力的考試。Opus 4.7 拿 87.6 分,4.8 升到 88.6 分。看起來只多一分,但更關鍵的是難度更高的 SWE-bench Pro:4.7 是 64.3 分,4.8 拉到 69.2 分,同個 benchmark 下 GPT-5.5 只有 58.6 分、Gemini 3.1 Pro 只有 54.2 分。換句話說,要拿 Claude 來寫真正的 production code,目前確實沒對手能打。

還有一個很實用的進步:Anthropic 自己量出來,Opus 4.8 比 4.7 「少放水四倍」。意思是面對有問題的 code,它願意主動告訴你「這裡可能有 bug」的機率高了 4 倍,而不是默默讓你踩雷。寫過 Vibe Coding 應該都知道,這個能力比多 1% 準確率重要太多。

2. 用瀏覽器:Online-Mind2Web 84%、OSWorld-Verified 83.4%

這兩個 benchmark 是考 AI 能不能像人一樣操作瀏覽器跟電腦桌面:看 UI、點按鈕、填表單、處理彈窗。Online-Mind2Web 84% 是這個項目目前所有公開模型的最高分;OSWorld-Verified 83.4% 也壓 GPT-5.5(78.7%)和 Gemini 3.1 Pro(76.2%)。所以拿 Claude 配 computer use API 來做「自動操作網銀 / 自動查資料 / 自動填報表」這類流程,現在是最佳選擇。

3. 算數學:USAMO 2026 拿 96.7 分

USAMO(美國數學奧林匹克)2026 這份考卷,Opus 4.7 只考了 69.3 分。4.8 考到 96.7 分。一代之內漲了快 30 分,這個進步幅度在 AI 圈這幾個月都很少見。為什麼一個 AI 模型該對奧數那麼強?因為它直接決定模型能不能處理財務模型、套利計算、智能合約裡的數學邏輯。對於 quant 跟做 DeFi 策略的人,這個分數比寫 code 還關鍵。

價格:標準價沒漲,Fast 模式打三折

這是這次更新最沒被注意到、但實際上對重度用戶最有感的一條:

類型Opus 4.7Opus 4.8差異
標準 input$5 / M token$5 / M token持平
標準 output$25 / M token$25 / M token持平
Fast 模式 input$30 / M token$10 / M token砍 67%
Fast 模式 output$150 / M token$50 / M token砍 67%

Fast 模式(你開 Claude Code 比較急的時候會用到的那個)整個砍三折。這代表 Anthropic 後端模型推理成本明顯下來了,而他們選擇把節省的成本還給用戶,而不是塞進毛利。對拿 Claude Code 在跑大 codebase 的工程師來說,每月帳單砍 60% 以上是常態。

跟 GPT-5.5 和 Gemini 3.5 怎麼比?

這個季度 OpenAI、Google、Anthropic 連珠炮放了三發旗艦:GPT-5.5 Instant(5 月初)、Gemini 3.5 Flash(5 月 19 日)、Claude Opus 4.8(5 月 28 日)。三家定位完全不同,挑哪個用要看你在意什麼:

項目Claude Opus 4.8GPT-5.5Gemini 3.5 Flash
智能指數(綜合)61.4(第一)中段55.3
標準價(in/out 每 M token)$5 / $25主流定價$1.5 / $9
SWE-bench Pro69.2%58.6%
Terminal-Bench 2.174.6%領先76.2%
GDPval-AA(職業任務)1,8901,7691,314
速度偏慢、出 token 多中速最快
最適合誰寫 code、深度推理、agent 編排日常 agent、性價比偏中大量便宜便快的任務

用最直白的話總結:Opus 4.8 是「智能最高、最貴、最慢」,Gemini 3.5 Flash 是「便宜 4 倍、快 4 倍、但智能少一截」,GPT-5.5 卡中間。每個輸出美金能換到的智能分,Gemini 大約是 Opus 的 2.4 倍。所以如果你在跑大量自動化任務,Gemini 是性價比之選;但只要任務複雜度往上拉一階,Opus 還是值那個價。

對「不寫 code 的散戶用戶」有什麼直接影響?

如果你只是用 Claude 來處理日常事務(讀 PDF、寫摘要、整理研究、寫貼文),下面四點是這次升級你會直接感受到的差異:

  • 它會主動承認不知道。Anthropic 把這次的核心定位寫成「更誠實」。實測下來,問它「這支幣的 tokenomics 細節」、「這個小幣的真實流通量」這類資料,現在比較常聽到它說「這部分我手上的資料只到 X 月,建議直接查 CoinGecko」。少了一堆好像很有道理但其實亂編的回答。
  • 長任務可以一次交給它。之前你要把「整理過去三個月所有 ETF 流入流出 + 找出三個重點異常 + 寫成報告」拆成 5、6 個 prompt。現在丟一句話進去,它會自己用 Dynamic Workflows 派任務、自己驗證、最後給你一份報告。
  • Effort 等級可以自己調。新介面有 Low / Medium / High / Max 四檔思考強度。日常聊天放 Low 省 token,寫研究文丟 Max 給它深思。對於 Claude.ai / Cowork 用戶來說,這直接決定你每月 Pro 訂閱被吃掉的速度。
  • Claude Code 變更便宜了。Fast 模式砍三折之後,本來覺得用 Claude Code 跑 vibe coding 太貴的,可以重新算一次帳。對於還在用 Cursor / Copilot 為主的人,可以開個 Pro 帳號試一個月再決定要不要主用。

幾個踩雷點,別當完美無瑕的銀彈

講完優勢,下面這幾條是我自己用了三天的感想,沒人寫,但你該知道:

  • Terminal-Bench 2.1 輸給 Gemini 3.5 Flash。單看「在終端機裡跑指令」這個項目,Opus 4.8 拿 74.6 分、Gemini 3.5 Flash 拿 76.2 分。所以如果你的活集中在 DevOps、shell 自動化、純命令列,Gemini 不一定比較差。
  • Dynamic Workflows 不是給你拿來「省思考」的。1,000 個 subagent 聽起來很爽,但你下的母 prompt 沒寫好,1,000 個分身一起跑歪,token 是真的會燒到你哭。這個功能適合「任務本身可以結構化拆分」的場景(codebase migration、大量資料抽取),不適合「我也不太確定要幹嘛」的開放式任務。
  • 智能指數 61.4 第一,但代價是它「話特別多」。同樣一個問題,Opus 4.8 平均輸出 token 數比 GPT-5.5 高出 30-50%。這代表雖然標準價沒漲,但每次回答的實際支出比 4.7 還貴一點,這部分要自己算。
  • Research preview = 還在實驗。Dynamic Workflows 目前是研究預覽,Anthropic 自己也說 SLA 還沒到 GA 等級。所以拿來跑 production / 正式給客戶用的工作流,建議先在內部跑兩週確認穩定再上。

結論:值不值得升?看你是哪一種用戶

  • 每天用 Claude Code 寫 code 的工程師:直接升、沒得選。SWE-bench Pro 多 5 分、bug 漏報少 4 倍、Fast 模式砍三折,這三件事任一條都值回升級成本。
  • 跑 agent、做自動化 workflow 的:直接試 Dynamic Workflows。能不能把工時砍掉 80% 就看你願不願意把任務寫得夠結構化。
  • 用 Claude.ai 處理研究跟內容的:升上去主要圖兩件事:少胡編亂造、Effort 等級可調。內容創作者特別推。
  • 只是日常聊天的:其實 4.7 跟 4.8 差距你不會太有感,可以慢慢觀察 4.8 的速度有沒有比較慢。如果差很多,回頭用 4.7 也行。
  • 看重性價比、預算有限的:同期出的 Gemini 3.5 Flash 智能少一截但便宜 4 倍、快 4 倍。如果你的任務不需要 frontier 智能,那個才是你的選擇。

整個 2026 年 5 月這一波 AI 旗艦更新,最值得記在腦袋裡的不是哪個 benchmark 第一,而是「Anthropic 第一次把『一個指令派 1,000 個分身』寫進產品」。這代表往後一年的競爭,不再只是比誰的單模型聰明,而是比誰能讓模型「自己組團隊、自己派工」。從 GPT 出來開始算,這是 LLM 演化往 agent 時代轉折的第一個具體訊號。

下個月(2026 年 6 月)值得繼續盯的:Anthropic 會不會把 Dynamic Workflows 從 research preview 拉到 GA、Google 會不會推 Gemini 3.5 Pro 把 Flash 補上、OpenAI 會不會在 GPT-5.5 之後一口氣跳 GPT-6 帶 dynamic 系列工具。三家放完籌碼之後,這場 agent 工廠的戰爭才正式開打。

免責聲明:本文僅整理公開資訊作為觀點分享,所有 benchmark 數據截至 2026 年 6 月,請以 Anthropic 官方文件為準。投資加密貨幣或購買 AI 訂閱服務前請自行評估財務狀況。本文不構成投資建議。

關於Mr. Slash

「Mr. Slash 的系統性人生」,創立於 2024年,由 Mr. Slash 本人及專業編輯團隊經營的財經內容平台。

我們的宗旨是透過投資、財經、自動化與新興科技等領域的深入解說與應用,幫助讀者打造穩定的被動收入系統。內容涵蓋加密貨幣、股息資產、量化工具、平台分潤等實用策略,協助你用更聰明的方法配置資金、累積資產,走在財務自由的路上,少走冤枉路。

若為商業合作邀稿,將會清楚標註「不代表本站立場」。

商業合作

如果您有任何關於我們團隊或網站內容的疑問或建議,歡迎您前往IG 私訊 @slash.Capital聯繫我們,謝謝!

عن Mr. Slash

«Mr. Slash» منصة محتوى مالي تأسست عام 2024، يديرها فريق تحرير متخصص. نقدّم للقارئ العربي شروحات عملية ومحايدة عن العملات الرقمية وطرق الشراء والإيداع والسحب المحلية في السعودية ومصر والخليج.

هدفنا مساعدتك على فهم السوق واختيار منصة تداول موثوقة وتقليل الرسوم. نحن لا نقدّم نصيحة استثمارية والقرار النهائي يبقى لك؛ وفي حال التعاون التجاري يُوضَّح ذلك صراحةً ولا يمثّل رأي الموقع.

تواصل وتعاون تجاري

لأي استفسار أو اقتراح أو تعاون، تواصل معنا عبر إنستغرام @slash.Capital. شكرًا لك!

發表迴響

相關文章

مقالات ذات صلة

Trending

探索更多來自 Mr. Slash|系統流人生 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Join Mr. Slash