13 至 19 分鐘
,

這週 AI 圈發生了一件讓 Sam Altman 不太舒服的事。

OpenAI 還在讓開發者慢慢試用 Agents SDK 的時候,中國的月之暗面(Moonshot AI)直接把自家最強的 Kimi K2.6 扔上 Hugging Face。Modified MIT License、權重全開、API 同步上線、Kimi CLI 配套一起發。沒有發布會,沒有暖場海報,一條推文就結束。

比開源這個動作更重的,是這個版本的規格。300 個子代理(sub-agents)同時工作。4,000 步任務不中斷。12 小時無人介入的連續編碼。SWE-Bench Pro 拿到 58.6 分,把 GPT-5.4 的 xhigh 模式(57.7)、Claude Opus 4.6 max effort(53.4)、Gemini 3.1 Pro thinking high(54.2)全部壓回去。

這是開源模型第一次在真實工程任務的基準上把閉源模型打下去。

截至 2026 年 4 月,以下資訊來自 Moonshot 官方發佈、Hugging Face 模型卡和獨立評測媒體。本文不構成投資建議。

為什麼這次跟以前的「中國開源追趕」不一樣

過去 18 個月,開源 AI 的主敘事是「便宜,但比閉源差一個檔」。Llama 4 在通用問答接近 GPT-5,可是到真實工程現場(開 20 個檔案、改 5 個模組、跑測試修 bug)閉源還是領先半個身位。

Kimi K2.6 打破的就是這個格差。

關鍵在於它選擇屠榜的基準:SWE-Bench Pro。這不是學院派的算法題,而是直接丟一份真實 GitHub Issue 給模型,連整個 repo 的程式碼也給它,看它能不能把問題修好並通過所有測試。真實工程師的日常。K2.6 的 58.6 分意味著,10 個 GitHub Issue 它能直接解掉將近 6 個,不用回滾。

58.6 這個數字,比 OpenAI 最貴的推理模式 GPT-5.4 xhigh(57.7)還高。xhigh 是你現在能買到的最強閉源 coding agent 能力。

「300 個 AI 員工同時工作」翻譯成人話

規格表上寫「300 sub-agents + 4,000 steps」,這個詞對非工程師毫無意義。把它翻譯成畫面:

你給 Kimi K2.6 一個任務,比如「把這個 React 專案的狀態管理從 Redux 改成 Zustand」。它不是一步一步慢慢做,而是:

  1. 中央 agent 先讀完整個專案,把工作拆成 300 個子任務(一個檔案一個 sub-agent)
  2. 300 個 sub-agents 並行跑,每個獨立分析自己負責的檔案、改代碼、跑測試
  3. 中央 agent 收齊結果,處理衝突,把所有改動合併進主分支
  4. 出問題的分支回退重做,整個流程不中斷

這個架構叫 Agent Swarm。以前 Cursor、Claude Code 這種收費平台才玩得起,因為要高階協調邏輯。現在 Kimi 把整個架構開源了,還一起開源了一個 CLI 工具讓你免費用。

官方公佈的數據:Agent Swarm 讓可並行任務的執行時間縮短到原來的 1/4.5。以前你要等 4 小時,現在 50 分鐘搞定。

12 小時無人介入的連續編碼是什麼體驗

Moonshot 給了一個內部 demo:單一 agent 跑 12 小時自己完成一個全端應用。期間它做的事:

  • 自己查 API 文檔
  • 自己上 Stack Overflow 找解法
  • 自己裝 npm 套件
  • 自己跑測試、debug、再跑
  • 出錯了自己回退、換方案

你不用盯。去睡覺、去上班、去約會,回來看結果。這在 2024 年只有 Devin 團隊做過 demo,還被質疑剪接造假。現在 Moonshot 把這個能力開源到你家電腦上能跑。

跟 Claude Code 和 Cursor 3 怎麼比

三個產品定位高度重疊,都是「終端裡的 AI coding agent」。差別在下面這張表:

項目Kimi K2.6 + Kimi CLIClaude Code + Opus 4.7Cursor 3 + Composer 2
底層模型開源(Modified MIT)閉源半開源(K2.5 微調)
SWE-Bench Pro58.664.3未公開
Agent Swarm原生 300 並行Sonnet sub-agentAgents Window
上下文視窗256K tokens1M(Max / Enterprise)200K
本地部署可以(8× H100)不行不行
價格(百萬 token)約 ¥2 / ¥12$5 / $25$20/月訂閱制

結論很直接。Claude Opus 4.7 在 SWE-Bench Pro 還是領先(64.3 vs 58.6)。K2.6 的賣點不是「最強」,是「夠強的開源版」。分三種情境:

你是個人開發者,已經訂了 Claude Max 或 Cursor Pro:沒必要換。繼續用你順手的工具。

你是企業 / 資料敏感的團隊(金融、法律、醫療):K2.6 是第一個可以在自己機房跑、能力又不輸閉源的選擇。代碼留在公司、病患資料不上雲、律所卷宗不外洩。這個市場原本閉源進不去,現在被 K2.6 撬開了。

你是 AI 應用開發者,要把大模型包進自己的產品:以前用 Claude API 成本高又有風險(Anthropic 改政策怎麼辦)。現在可以把 K2.6 接在自己的服務後面,定價權和可用性都在自己手上。

三分鐘上手:Kimi CLI 怎麼裝

最快的路徑是裝 Kimi CLI(Apache 2.0 License,本身也開源):

npm install -g @moonshotai/kimi-cli
kimi-cli init
cd 你的專案目錄
kimi

第一次跑會要你貼 API key。去 https://platform.moonshot.ai 註冊拿一把,免費額度大概夠試個 30 分鐘深度使用。

想自部署的話,去 Hugging Face 下載 moonshotai/Kimi-K2.6 權重。需要 8× H100(約 20 萬美金硬體)才跑得動滿規格,用 vLLM 或 SGLang 做 inference。對個人來說不實際,對企業做私有部署很合理。

只想試用不想裝東西:直接開 https://www.kimi.com,聊天介面裡就能用。

Tony 觀點:這件事對投資人的 3 個意義

  1. AI 模型護城河正在被開源吃掉。OpenAI 花幾百億美元蓋的「GPT 最強」敘事,被一個中國 1T 參數的開源模型打折了。閉源護城河打折 = 訂閱價格和 margin 會被壓。ChatGPT Plus 一路漲價的時代可能要結束。
  2. Agent Swarm 從「高級炫技」變成「入場券」。以後每個大模型都要有這個能力。沒有的會被淘汰。下次看 benchmark,別只看單點分數,要看並行能力。
  3. 「中國 AI 落後美國 6 個月」這個投資框架失效了。K2.6 證明差距已經縮到幾週。如果你還拿這個框架做 AI 概念股的多空判斷,要重建模型。

接下來要盯的三件事

第一,DeepSeek v4 預計 5 月釋出,目標明顯對標 K2.6。兩個中國開源團隊互相競速,會把門檻再往下壓一個檔。

第二,Claude Opus 4.8 的時間表。Anthropic 上一版 4.7 是 4/16 發佈,頻率每兩個月一版。6 月前應該會有新版回應 K2.6 的衝擊。

第三,Google Gemini 的 Agent Swarm 規格。Gemini 3.1 Pro 的 thinking high 模式分數被 K2.6 壓過去了,Google 必須公開 3.2 版的並行能力具體數字,而不是只丟一個 ELO 分數。

一句話總結

Kimi K2.6 不是「史上最強」,而是「史上第一個開源就夠強」。對個人用戶衝擊不大,對企業市場和 AI 投資格局是結構性轉折。

本文資料來自 Moonshot AI 官方、Hugging Face、MarkTechPost、Latent.space 等獨立來源,截至 2026 年 4 月 22 日。AI 模型迭代極快,建議以官方最新公告為準。本文不構成任何投資建議。

關於Mr. Slash

「Mr. Slash 的系統性人生」,創立於 2024年,由 Mr. Slash 本人及專業編輯團隊經營的財經內容平台。

我們的宗旨是透過投資、財經、自動化與新興科技等領域的深入解說與應用,幫助讀者打造穩定的被動收入系統。內容涵蓋加密貨幣、股息資產、量化工具、平台分潤等實用策略,協助你用更聰明的方法配置資金、累積資產,走在財務自由的路上,少走冤枉路。

若為商業合作邀稿,將會清楚標註「不代表本站立場」。

商業合作

如果您有任何關於我們團隊或網站內容的疑問或建議,歡迎您前往IG 私訊 @slash.Capital聯繫我們,謝謝!

發表迴響

Trending

探索更多來自 Mr. Slash|系統流人生 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Join Mr. Slash