最後更新:2026 年 6 月 21 日|本文規格與定價以 Cohere 官方與 Hugging Face 公告為準

過去想在自己機器上養一個「會寫 code」的開源模型,第一道門檻就是硬件——動輒要一整櫃 GPU,光電費就勸退一堆人。2026 年 6 月,一向只做企業生意的 Cohere 換了個玩法:開源了一個叫 North Mini Code 的編碼模型,30B 參數卻只激活 3B,一張 H100 就跑得動,還在編碼榜上把一堆更大的模型按在地上。

一句話結論:Cohere North Mini Code 是 Apache-2.0 開源的 30B/3B agentic coding 模型,最低一張 H100(FP8)就能自架,適合想把寫 code 的 AI 留在自家、又不想被閉源 API 月費綁死的開發團隊;只想點開即用、零維運的人,先留在雲端 API 就好。

Cohere North Mini Code 是什麼?

它是 Cohere 推出的第一個「給開發者用」的模型,屬於全新的 North 系列——以前 Cohere 主攻企業採購端,這次直接把矛頭對準寫程式的工程師。North Mini Code 是一個混合專家(MoE)架構的編碼模型:總參數 30B,但每個 token 只激活 3B,所以它跑起來的資源消耗更像一個小模型,能力卻接近大模型。權重 2026 年 6 月在 Hugging Face 上以 Apache-2.0 開源,可商用、可改、可自架。

它不只是「會補全程式碼」,而是為 agentic(自主代理)軟體工程設計:能做子代理協調(sub-agent orchestration)、把專案架構畫成地圖、自己做 code review、在終端機裡幹活。簡單講,它是想當你的 AI 工程隊員,不是只當你的自動完成外掛。

30B 只激活 3B,為什麼是重點?

重點在「便宜養得起,卻打得贏」。激活參數少,代表推理時的算力與顯存需求低——最低一張 H100(FP8)就跑得起,這是很多中小團隊負擔得起的門檻。而它的成績單一點都不小:Cohere 報告 Artificial Analysis 編碼指數 33.4,吞吐量最高是 Devstral Small 2 的 2.8 倍,SWE-Bench Verified 拿到 80.2%(pass@10)、SWE-Bench Pro 61.0%(pass@1)。官方說它在編碼指數上壓過 Qwen3.5(35B-A3B)、Gemma 4(26B-A4B)、Devstral Small 2(24B Dense),甚至贏過參數量大得多的模型。

一句話翻譯:以前要「大模型 + 大機房」才換得到的編碼能力,現在「小激活 + 一張卡」就能自己擁有。

North Mini Code 跟 Qwen、Devstral 這些開源模型差在哪?

差在「同樣的硬件,誰更快、誰更會當 agent」。下面把幾個常被拿來比的開源編碼模型放一起看(其他模型的確切分數以各自官方為準,這裡聚焦規格與定位):

模型參數 / 激活授權最低硬件定位亮點
Cohere North Mini Code30B / 3B(MoE)Apache-2.0一張 H100(FP8)編碼指數 33.4;吞吐量達 Devstral 2.8 倍;主打 agentic
Qwen3.5(35B-A3B)35B / 3B(MoE)開源單卡可跑通用 + 編碼均衡
Gemma 4(26B-A4B)26B / 4B(MoE)開源權重單卡可跑Google 生態、多模態
Devstral Small 2(24B)24B Dense開源單卡可跑專注 coding agent,被 North 比下吞吐量

如果你要的是「在自家一張 H100 上跑得最順、又最會當編碼 agent」,North Mini Code 的賣點就是吞吐量與 agentic 能力的組合;要 Google 生態整合選 Gemma 4,要單純 dense 模型好部署可看 Devstral。

怎麼把 North Mini Code 跑起來?vLLM 三步上手

會用 vLLM 的話,門檻其實很低。下面是觀念版步驟,實際參數以 Hugging Face 模型頁與官方文件為準。

  1. 準備一張 H100:自己有最好;沒有就租雲端 GPU(AWS p5 等),FP8 權重最低一張 H100 就夠。
  2. 裝 vLLM 與 Cohere 的解析庫:目前建議用 vLLM main 分支,並安裝 Cohere 的 melody 套件,回應才解析得準確。
  3. 啟動服務:跑 vllm serve CohereLabs/North-Mini-Code-1.0-w4a16 -tp 1 --max-model-len 320000 --tool-call-parser cohere_command4,起來後就是一個 OpenAI 相容端點,你的 IDE、Agent、或像 Serge 這種 code review 工具都能直接接上去。

權重在 Hugging Face 上提供 bf16、fp8、w4a16(4-bit)三種格式,顯存吃緊就選 4-bit 的 w4a16。接好之後,它就是你私有的編碼大腦,原始碼不用送出公司。想讓它幫你自動審 PR,可以搭配我們之前介紹過的 Hugging Face Serge(GitHub 原生 AI Code Review),把這顆模型設成審查引擎。

North Mini Code 免費嗎?自架成本算給你看

模型權重免費(Apache-2.0),但你得自己出 GPU 的錢。雲端一張 H100 大約每小時 US$10–15 起(以雲端商現價為準),自購一台 H100 伺服器則約 US$35,000 一次性。它划不划算,看你用量——重度團隊自架往往比一直付閉源 API 便宜。下面填你的用量,直接比給你看(數字可改,全是估算)。

🧮 自架開源模型 vs 閉源 API 月成本試算機

自架(雲端 H100)月成本
閉源 API 月成本
每月差額
一年差額

估算僅供參考:自架以「每月時數 × 時租」計,未含工程維運與儲存;閉源 API 以你填的月費計。若改自購 H100 伺服器(約 US$35,000 一次性),長期重度使用攤提後通常更省。各家現價以官網為準(截至 2026 年 6 月)。

North Mini Code 適合誰?誰先別碰?

一句話分流:要把寫 code 的 AI 留在自家、又控制成本的,選 North Mini Code;只想兩分鐘上線、不想碰 GPU 的,先用閉源 API。

  • 最該用:在意原始碼不外流(金融、醫療、政府專案)、已經有或租得起 H100、想自架編碼 Agent 的團隊。
  • 很適合:要把模型接進自己工具鏈(IDE、CI、自動 code review)、需要 OpenAI 相容端點又想自己掌控的開發者。
  • 先別急:個人、零 GPU、連 vLLM 都沒碰過的新手——直接用雲端閉源 API 上手最快,等用量或合規需求上來再自架。

不想用 North Mini Code,有什麼替代方案?

同樣是開源、可自架的編碼模型,MiniMax M3 走的是百萬 context 的前沿路線;要更大規模的開源 coding 模型可看 Kimi K2.7-Code(1T MoE);要 Google 生態整合就 Gemma 4;偏好 dense、好部署選 Devstral Small 2。如果你連 GPU 都不想碰,那就老實用閉源 API(Claude、GPT 等),用機器時間換錢。工具是死的,重點是讓「AI 真的進到你的開發流程」這件事發生。

會自架編碼模型,能幫你多賺什麼?

別只把它當「省 API 費」。會把一顆開源模型在自家 H100 上跑通、接進 IDE 和 CI、再串上自動 code review,這整套能力現在超級值錢——一堆在意資料合規、不敢把 code 送上雲端的公司,正到處找會做「私有部署 AI 編碼助手」的人。你把 North Mini Code 部署成一個可複製的內部編碼 Agent,本身就是一個能對外接案、能談薪的硬技能。省下來的 API 月費是守,接得到私有部署的案是攻——這才是把開源權重變成現金流的完整玩法。

常見問題(FAQ)

North Mini Code 要錢嗎?

模型權重完全免費、開源(Apache-2.0),可商用。實際成本是你跑它的 GPU——自家 H100 只算電費,雲端則按時數計。

North Mini Code 一張 H100 真的跑得起嗎?

可以。官方最低硬件需求是一張 H100(FP8)。顯存吃緊時可用 4-bit 的 w4a16 權重進一步壓低需求。

North Mini Code 跟閉源 API(Claude、GPT)比,值得自架嗎?

看兩件事:合規與用量。要資料不外流就值得自架;用量大到 API 月費肉痛,自架攤提後通常更省。輕度、零維運需求的人,閉源 API 仍然最省事。

不會 DevOps 也能用 North Mini Code 嗎?

自架需要會基本的 vLLM 部署。完全零基礎建議先找會 GPU 部署的同事,或先透過提供它的雲端推理平台用 API,等熟了再自己架。

North Mini Code 能接進我現有的工具嗎?

能。用 vLLM 起服務後是 OpenAI 相容端點,凡是支援 OpenAI API 的 IDE、Agent 框架、code review 工具(例如 Serge)都接得上。

新手行動清單

  • ☐ 到 Hugging Face 看 CohereLabs/North-Mini-Code-1.0 模型頁,確認授權與格式
  • ☐ 決定硬件:自家 H100 還是租雲端 GPU
  • ☐ 裝好 vLLM(main)+ Cohere melody,啟動服務
  • ☐ 選權重格式:顯存夠用 fp8,吃緊用 w4a16(4-bit)
  • ☐ 把端點接進 IDE / CI / code review 工具試跑一個真實任務
  • ☐ 用上面的「成本試算機」算給主管看,自架省多少一目了然

延伸閱讀

參考資料

利益揭露:本文不含付費推廣,提及之工具均為公開資訊整理,無任何廠商贊助。AI 模型版本、規格與雲端 GPU 定價更新極快,實際數據請以各官網最新公告為準(截至 2026 年 6 月)。本文為資訊分享,不構成任何投資或商業建議。

關於Mr. Slash

「Mr. Slash 的系統性人生」,創立於 2024年,由 Mr. Slash 本人及專業編輯團隊經營的財經內容平台。

我們的宗旨是透過投資、財經、自動化與新興科技等領域的深入解說與應用,幫助讀者打造穩定的被動收入系統。內容涵蓋加密貨幣、股息資產、量化工具、平台分潤等實用策略,協助你用更聰明的方法配置資金、累積資產,走在財務自由的路上,少走冤枉路。

若為商業合作邀稿,將會清楚標註「不代表本站立場」。

商業合作

如果您有任何關於我們團隊或網站內容的疑問或建議,歡迎您前往IG 私訊 @slash.Capital聯繫我們,謝謝!

عن Mr. Slash

«Mr. Slash» منصة محتوى مالي تأسست عام 2024، يديرها فريق تحرير متخصص. نقدّم للقارئ العربي شروحات عملية ومحايدة عن العملات الرقمية وطرق الشراء والإيداع والسحب المحلية في السعودية ومصر والخليج.

هدفنا مساعدتك على فهم السوق واختيار منصة تداول موثوقة وتقليل الرسوم. نحن لا نقدّم نصيحة استثمارية والقرار النهائي يبقى لك؛ وفي حال التعاون التجاري يُوضَّح ذلك صراحةً ولا يمثّل رأي الموقع.

تواصل وتعاون تجاري

لأي استفسار أو اقتراح أو تعاون، تواصل معنا عبر إنستغرام @slash.Capital. شكرًا لك!

發表迴響

相關文章

مقالات ذات صلة

Trending

探索更多來自 Mr. Slash|系統流人生 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Join Mr. Slash