這週 AI 圈發生了一件讓 Sam Altman 不太舒服的事。
OpenAI 還在讓開發者慢慢試用 Agents SDK 的時候,中國的月之暗面(Moonshot AI)直接把自家最強的 Kimi K2.6 扔上 Hugging Face。Modified MIT License、權重全開、API 同步上線、Kimi CLI 配套一起發。沒有發布會,沒有暖場海報,一條推文就結束。
比開源這個動作更重的,是這個版本的規格。300 個子代理(sub-agents)同時工作。4,000 步任務不中斷。12 小時無人介入的連續編碼。SWE-Bench Pro 拿到 58.6 分,把 GPT-5.4 的 xhigh 模式(57.7)、Claude Opus 4.6 max effort(53.4)、Gemini 3.1 Pro thinking high(54.2)全部壓回去。
這是開源模型第一次在真實工程任務的基準上把閉源模型打下去。
截至 2026 年 4 月,以下資訊來自 Moonshot 官方發佈、Hugging Face 模型卡和獨立評測媒體。本文不構成投資建議。
為什麼這次跟以前的「中國開源追趕」不一樣
過去 18 個月,開源 AI 的主敘事是「便宜,但比閉源差一個檔」。Llama 4 在通用問答接近 GPT-5,可是到真實工程現場(開 20 個檔案、改 5 個模組、跑測試修 bug)閉源還是領先半個身位。
Kimi K2.6 打破的就是這個格差。
關鍵在於它選擇屠榜的基準:SWE-Bench Pro。這不是學院派的算法題,而是直接丟一份真實 GitHub Issue 給模型,連整個 repo 的程式碼也給它,看它能不能把問題修好並通過所有測試。真實工程師的日常。K2.6 的 58.6 分意味著,10 個 GitHub Issue 它能直接解掉將近 6 個,不用回滾。
58.6 這個數字,比 OpenAI 最貴的推理模式 GPT-5.4 xhigh(57.7)還高。xhigh 是你現在能買到的最強閉源 coding agent 能力。
「300 個 AI 員工同時工作」翻譯成人話
規格表上寫「300 sub-agents + 4,000 steps」,這個詞對非工程師毫無意義。把它翻譯成畫面:
你給 Kimi K2.6 一個任務,比如「把這個 React 專案的狀態管理從 Redux 改成 Zustand」。它不是一步一步慢慢做,而是:
- 中央 agent 先讀完整個專案,把工作拆成 300 個子任務(一個檔案一個 sub-agent)
- 300 個 sub-agents 並行跑,每個獨立分析自己負責的檔案、改代碼、跑測試
- 中央 agent 收齊結果,處理衝突,把所有改動合併進主分支
- 出問題的分支回退重做,整個流程不中斷
這個架構叫 Agent Swarm。以前 Cursor、Claude Code 這種收費平台才玩得起,因為要高階協調邏輯。現在 Kimi 把整個架構開源了,還一起開源了一個 CLI 工具讓你免費用。
官方公佈的數據:Agent Swarm 讓可並行任務的執行時間縮短到原來的 1/4.5。以前你要等 4 小時,現在 50 分鐘搞定。
12 小時無人介入的連續編碼是什麼體驗
Moonshot 給了一個內部 demo:單一 agent 跑 12 小時自己完成一個全端應用。期間它做的事:
- 自己查 API 文檔
- 自己上 Stack Overflow 找解法
- 自己裝 npm 套件
- 自己跑測試、debug、再跑
- 出錯了自己回退、換方案
你不用盯。去睡覺、去上班、去約會,回來看結果。這在 2024 年只有 Devin 團隊做過 demo,還被質疑剪接造假。現在 Moonshot 把這個能力開源到你家電腦上能跑。
跟 Claude Code 和 Cursor 3 怎麼比
三個產品定位高度重疊,都是「終端裡的 AI coding agent」。差別在下面這張表:
| 項目 | Kimi K2.6 + Kimi CLI | Claude Code + Opus 4.7 | Cursor 3 + Composer 2 |
|---|---|---|---|
| 底層模型 | 開源(Modified MIT) | 閉源 | 半開源(K2.5 微調) |
| SWE-Bench Pro | 58.6 | 64.3 | 未公開 |
| Agent Swarm | 原生 300 並行 | Sonnet sub-agent | Agents Window |
| 上下文視窗 | 256K tokens | 1M(Max / Enterprise) | 200K |
| 本地部署 | 可以(8× H100) | 不行 | 不行 |
| 價格(百萬 token) | 約 ¥2 / ¥12 | $5 / $25 | $20/月訂閱制 |
結論很直接。Claude Opus 4.7 在 SWE-Bench Pro 還是領先(64.3 vs 58.6)。K2.6 的賣點不是「最強」,是「夠強的開源版」。分三種情境:
你是個人開發者,已經訂了 Claude Max 或 Cursor Pro:沒必要換。繼續用你順手的工具。
你是企業 / 資料敏感的團隊(金融、法律、醫療):K2.6 是第一個可以在自己機房跑、能力又不輸閉源的選擇。代碼留在公司、病患資料不上雲、律所卷宗不外洩。這個市場原本閉源進不去,現在被 K2.6 撬開了。
你是 AI 應用開發者,要把大模型包進自己的產品:以前用 Claude API 成本高又有風險(Anthropic 改政策怎麼辦)。現在可以把 K2.6 接在自己的服務後面,定價權和可用性都在自己手上。
三分鐘上手:Kimi CLI 怎麼裝
最快的路徑是裝 Kimi CLI(Apache 2.0 License,本身也開源):
npm install -g @moonshotai/kimi-cli
kimi-cli init
cd 你的專案目錄
kimi
第一次跑會要你貼 API key。去 https://platform.moonshot.ai 註冊拿一把,免費額度大概夠試個 30 分鐘深度使用。
想自部署的話,去 Hugging Face 下載 moonshotai/Kimi-K2.6 權重。需要 8× H100(約 20 萬美金硬體)才跑得動滿規格,用 vLLM 或 SGLang 做 inference。對個人來說不實際,對企業做私有部署很合理。
只想試用不想裝東西:直接開 https://www.kimi.com,聊天介面裡就能用。
Tony 觀點:這件事對投資人的 3 個意義
- AI 模型護城河正在被開源吃掉。OpenAI 花幾百億美元蓋的「GPT 最強」敘事,被一個中國 1T 參數的開源模型打折了。閉源護城河打折 = 訂閱價格和 margin 會被壓。ChatGPT Plus 一路漲價的時代可能要結束。
- Agent Swarm 從「高級炫技」變成「入場券」。以後每個大模型都要有這個能力。沒有的會被淘汰。下次看 benchmark,別只看單點分數,要看並行能力。
- 「中國 AI 落後美國 6 個月」這個投資框架失效了。K2.6 證明差距已經縮到幾週。如果你還拿這個框架做 AI 概念股的多空判斷,要重建模型。
接下來要盯的三件事
第一,DeepSeek v4 預計 5 月釋出,目標明顯對標 K2.6。兩個中國開源團隊互相競速,會把門檻再往下壓一個檔。
第二,Claude Opus 4.8 的時間表。Anthropic 上一版 4.7 是 4/16 發佈,頻率每兩個月一版。6 月前應該會有新版回應 K2.6 的衝擊。
第三,Google Gemini 的 Agent Swarm 規格。Gemini 3.1 Pro 的 thinking high 模式分數被 K2.6 壓過去了,Google 必須公開 3.2 版的並行能力具體數字,而不是只丟一個 ELO 分數。
一句話總結
Kimi K2.6 不是「史上最強」,而是「史上第一個開源就夠強」。對個人用戶衝擊不大,對企業市場和 AI 投資格局是結構性轉折。
本文資料來自 Moonshot AI 官方、Hugging Face、MarkTechPost、Latent.space 等獨立來源,截至 2026 年 4 月 22 日。AI 模型迭代極快,建議以官方最新公告為準。本文不構成任何投資建議。
發表迴響