最後更新:2026 年 6 月 21 日|本文規格與定價以 Cohere 官方與 Hugging Face 公告為準
過去想在自己機器上養一個「會寫 code」的開源模型,第一道門檻就是硬件——動輒要一整櫃 GPU,光電費就勸退一堆人。2026 年 6 月,一向只做企業生意的 Cohere 換了個玩法:開源了一個叫 North Mini Code 的編碼模型,30B 參數卻只激活 3B,一張 H100 就跑得動,還在編碼榜上把一堆更大的模型按在地上。
一句話結論:Cohere North Mini Code 是 Apache-2.0 開源的 30B/3B agentic coding 模型,最低一張 H100(FP8)就能自架,適合想把寫 code 的 AI 留在自家、又不想被閉源 API 月費綁死的開發團隊;只想點開即用、零維運的人,先留在雲端 API 就好。
Cohere North Mini Code 是什麼?
它是 Cohere 推出的第一個「給開發者用」的模型,屬於全新的 North 系列——以前 Cohere 主攻企業採購端,這次直接把矛頭對準寫程式的工程師。North Mini Code 是一個混合專家(MoE)架構的編碼模型:總參數 30B,但每個 token 只激活 3B,所以它跑起來的資源消耗更像一個小模型,能力卻接近大模型。權重 2026 年 6 月在 Hugging Face 上以 Apache-2.0 開源,可商用、可改、可自架。
它不只是「會補全程式碼」,而是為 agentic(自主代理)軟體工程設計:能做子代理協調(sub-agent orchestration)、把專案架構畫成地圖、自己做 code review、在終端機裡幹活。簡單講,它是想當你的 AI 工程隊員,不是只當你的自動完成外掛。
30B 只激活 3B,為什麼是重點?
重點在「便宜養得起,卻打得贏」。激活參數少,代表推理時的算力與顯存需求低——最低一張 H100(FP8)就跑得起,這是很多中小團隊負擔得起的門檻。而它的成績單一點都不小:Cohere 報告 Artificial Analysis 編碼指數 33.4,吞吐量最高是 Devstral Small 2 的 2.8 倍,SWE-Bench Verified 拿到 80.2%(pass@10)、SWE-Bench Pro 61.0%(pass@1)。官方說它在編碼指數上壓過 Qwen3.5(35B-A3B)、Gemma 4(26B-A4B)、Devstral Small 2(24B Dense),甚至贏過參數量大得多的模型。
一句話翻譯:以前要「大模型 + 大機房」才換得到的編碼能力,現在「小激活 + 一張卡」就能自己擁有。
North Mini Code 跟 Qwen、Devstral 這些開源模型差在哪?
差在「同樣的硬件,誰更快、誰更會當 agent」。下面把幾個常被拿來比的開源編碼模型放一起看(其他模型的確切分數以各自官方為準,這裡聚焦規格與定位):
| 模型 | 參數 / 激活 | 授權 | 最低硬件 | 定位亮點 |
|---|---|---|---|---|
| Cohere North Mini Code | 30B / 3B(MoE) | Apache-2.0 | 一張 H100(FP8) | 編碼指數 33.4;吞吐量達 Devstral 2.8 倍;主打 agentic |
| Qwen3.5(35B-A3B) | 35B / 3B(MoE) | 開源 | 單卡可跑 | 通用 + 編碼均衡 |
| Gemma 4(26B-A4B) | 26B / 4B(MoE) | 開源權重 | 單卡可跑 | Google 生態、多模態 |
| Devstral Small 2(24B) | 24B Dense | 開源 | 單卡可跑 | 專注 coding agent,被 North 比下吞吐量 |
如果你要的是「在自家一張 H100 上跑得最順、又最會當編碼 agent」,North Mini Code 的賣點就是吞吐量與 agentic 能力的組合;要 Google 生態整合選 Gemma 4,要單純 dense 模型好部署可看 Devstral。
怎麼把 North Mini Code 跑起來?vLLM 三步上手
會用 vLLM 的話,門檻其實很低。下面是觀念版步驟,實際參數以 Hugging Face 模型頁與官方文件為準。
- 準備一張 H100:自己有最好;沒有就租雲端 GPU(AWS p5 等),FP8 權重最低一張 H100 就夠。
- 裝 vLLM 與 Cohere 的解析庫:目前建議用 vLLM main 分支,並安裝 Cohere 的
melody套件,回應才解析得準確。 - 啟動服務:跑
vllm serve CohereLabs/North-Mini-Code-1.0-w4a16 -tp 1 --max-model-len 320000 --tool-call-parser cohere_command4,起來後就是一個 OpenAI 相容端點,你的 IDE、Agent、或像 Serge 這種 code review 工具都能直接接上去。
權重在 Hugging Face 上提供 bf16、fp8、w4a16(4-bit)三種格式,顯存吃緊就選 4-bit 的 w4a16。接好之後,它就是你私有的編碼大腦,原始碼不用送出公司。想讓它幫你自動審 PR,可以搭配我們之前介紹過的 Hugging Face Serge(GitHub 原生 AI Code Review),把這顆模型設成審查引擎。
North Mini Code 免費嗎?自架成本算給你看
模型權重免費(Apache-2.0),但你得自己出 GPU 的錢。雲端一張 H100 大約每小時 US$10–15 起(以雲端商現價為準),自購一台 H100 伺服器則約 US$35,000 一次性。它划不划算,看你用量——重度團隊自架往往比一直付閉源 API 便宜。下面填你的用量,直接比給你看(數字可改,全是估算)。
🧮 自架開源模型 vs 閉源 API 月成本試算機
估算僅供參考:自架以「每月時數 × 時租」計,未含工程維運與儲存;閉源 API 以你填的月費計。若改自購 H100 伺服器(約 US$35,000 一次性),長期重度使用攤提後通常更省。各家現價以官網為準(截至 2026 年 6 月)。
North Mini Code 適合誰?誰先別碰?
一句話分流:要把寫 code 的 AI 留在自家、又控制成本的,選 North Mini Code;只想兩分鐘上線、不想碰 GPU 的,先用閉源 API。
- 最該用:在意原始碼不外流(金融、醫療、政府專案)、已經有或租得起 H100、想自架編碼 Agent 的團隊。
- 很適合:要把模型接進自己工具鏈(IDE、CI、自動 code review)、需要 OpenAI 相容端點又想自己掌控的開發者。
- 先別急:個人、零 GPU、連 vLLM 都沒碰過的新手——直接用雲端閉源 API 上手最快,等用量或合規需求上來再自架。
不想用 North Mini Code,有什麼替代方案?
同樣是開源、可自架的編碼模型,MiniMax M3 走的是百萬 context 的前沿路線;要更大規模的開源 coding 模型可看 Kimi K2.7-Code(1T MoE);要 Google 生態整合就 Gemma 4;偏好 dense、好部署選 Devstral Small 2。如果你連 GPU 都不想碰,那就老實用閉源 API(Claude、GPT 等),用機器時間換錢。工具是死的,重點是讓「AI 真的進到你的開發流程」這件事發生。
會自架編碼模型,能幫你多賺什麼?
別只把它當「省 API 費」。會把一顆開源模型在自家 H100 上跑通、接進 IDE 和 CI、再串上自動 code review,這整套能力現在超級值錢——一堆在意資料合規、不敢把 code 送上雲端的公司,正到處找會做「私有部署 AI 編碼助手」的人。你把 North Mini Code 部署成一個可複製的內部編碼 Agent,本身就是一個能對外接案、能談薪的硬技能。省下來的 API 月費是守,接得到私有部署的案是攻——這才是把開源權重變成現金流的完整玩法。
常見問題(FAQ)
North Mini Code 要錢嗎?
模型權重完全免費、開源(Apache-2.0),可商用。實際成本是你跑它的 GPU——自家 H100 只算電費,雲端則按時數計。
North Mini Code 一張 H100 真的跑得起嗎?
可以。官方最低硬件需求是一張 H100(FP8)。顯存吃緊時可用 4-bit 的 w4a16 權重進一步壓低需求。
North Mini Code 跟閉源 API(Claude、GPT)比,值得自架嗎?
看兩件事:合規與用量。要資料不外流就值得自架;用量大到 API 月費肉痛,自架攤提後通常更省。輕度、零維運需求的人,閉源 API 仍然最省事。
不會 DevOps 也能用 North Mini Code 嗎?
自架需要會基本的 vLLM 部署。完全零基礎建議先找會 GPU 部署的同事,或先透過提供它的雲端推理平台用 API,等熟了再自己架。
North Mini Code 能接進我現有的工具嗎?
能。用 vLLM 起服務後是 OpenAI 相容端點,凡是支援 OpenAI API 的 IDE、Agent 框架、code review 工具(例如 Serge)都接得上。
新手行動清單
- ☐ 到 Hugging Face 看 CohereLabs/North-Mini-Code-1.0 模型頁,確認授權與格式
- ☐ 決定硬件:自家 H100 還是租雲端 GPU
- ☐ 裝好 vLLM(main)+ Cohere melody,啟動服務
- ☐ 選權重格式:顯存夠用 fp8,吃緊用 w4a16(4-bit)
- ☐ 把端點接進 IDE / CI / code review 工具試跑一個真實任務
- ☐ 用上面的「成本試算機」算給主管看,自架省多少一目了然
延伸閱讀
- Hugging Face Serge:GitHub 原生 AI Code Review,自架免費審每個 PR
- MiniMax M3 開源實測:百萬 context 的前沿開源模型
- Context7 MCP:讓 AI 寫 code 不再用過時文件
參考資料
- Cohere 官方:Introducing North Mini Code
- North Mini Code 1.0 模型頁(Hugging Face,Apache-2.0)
- Cohere Blog:North Mini Code
利益揭露:本文不含付費推廣,提及之工具均為公開資訊整理,無任何廠商贊助。AI 模型版本、規格與雲端 GPU 定價更新極快,實際數據請以各官網最新公告為準(截至 2026 年 6 月)。本文為資訊分享,不構成任何投資或商業建議。






發表迴響