Hugging Face 直接開源一個 ML 工程師：10 小時把模型分數從 8.5% 衝到 32%，打趴 Claude Code 跟 Codex

26 4 月, 2026

15 至 23 分鐘

截至 2026 年 4 月 26 日。Hugging Face 4 月 25 日把 ml-intern 開源了。一個能自己讀 arXiv 論文、自己挑資料集、自己跑訓練、自己發模型的 Agent。10 小時把 Qwen3-1.7B 的 GPQA 分數從 8.5% 衝到 32%，同時把 Claude Code 跟 Codex 都壓了下去。entry-level 的 ML 研究員位子，就是這樣被吃光的。

一個能自己工作的 ML 實習生，現在開源了

先看數字。

Qwen3-1.7B，一個小到能在筆電上跑的模型，原始 GPQA（研究生級科學推理）分數只有 8.5%。

把這個模型丟給 ml-intern。10 小時後，分數衝到 32%。

中間沒有人類介入。沒人寫訓練腳本、沒人標資料、沒人調超參數。ml-intern 自己讀了相關論文，自己去 Hugging Face Hub 上挑資料集，自己決定用什麼方法、自己跑訓練、自己評估、自己迭代。

同樣的任務丟給 Claude Code，分數 22.99%。丟給 OpenAI 的 Codex，在另一個 HealthBench 醫療基準上，ml-intern 直接贏了 60%。

簡單一句話：在「自己研究自己訓練模型」這條賽道上，Hugging Face 親手開源的 Agent，把 Anthropic 跟 OpenAI 的旗艦級 coding agent 都壓了下去。

而且它免費。原始碼在 GitHub 上：huggingface/ml-intern。

它真的會幹什麼？

ml-intern 不是「自動補 code 的小工具」，是「會把整套 ML 後訓練流程做完的初級研究員」。

實際工作流程拆出來大概長這樣：

第一步，讀論文。你給它一個任務目標，例如「讓 Qwen3-1.7B 的科學推理變強」。它會去 arxiv.org 跟 hf.co/papers，把相關論文整篇讀完，不只是看摘要；同時走引文圖譜，看這篇論文引用了什麼、被什麼人引用，把方法論這個段落啃完。

第二步，找資料集。讀完論文之後，它知道應該找什麼類型的訓練資料。它會去 Hugging Face Hub 搜，找出論文裡提到的 dataset，自己把資料集打開來看欄位、看品質、看格式對不對。如果格式不對，它自己寫 reformat 腳本把資料整理好。

第三步，跑訓練。如果你本地有 GPU，它在你本地跑。如果沒有，它直接呼叫 Hugging Face Jobs 雲端跑。整個訓練腳本它自己寫、自己 launch、自己看 log。實驗追蹤用 Hugging Face 自家的 Trackio，全開源、可重現。

第四步，評估與迭代。訓練完之後它跑 benchmark，看結果，自己決定下一輪要怎麼調整。如果第一版結果不好，它會回去再讀論文、再找新方法、再跑一次。整個 loop 完全自動。

第五步，發模型。跑出滿意的版本之後，它直接把模型推上 Hugging Face Hub，附帶 model card、訓練紀錄、評估結果。從零到「公開可用的模型」整套流水線一次走完。

這套東西你雇一個人類初級 ML 工程師也是這樣做的。差別是 ml-intern 不用睡覺、不用週末、不會發牢騷、薪水是電費。

為什麼是 Hugging Face 自己跳下來做？

這條訊號比 ml-intern 本身的功能更重要。

過去三年，AI 工程化工具市場是這樣運作的：模型公司賣模型（OpenAI 賣 GPT、Anthropic 賣 Claude）；工具公司賣工具（Cursor、Copilot、Replit Agent）；平台公司賣平台（Hugging Face 賣 Hub、賣推論、賣 Jobs）。三方各做各的、互相靠市場分工撐起一個生態。

Hugging Face 開源 ml-intern 等於宣布：平台公司不打算再被動等你來用我的 API，我自己做一個 Agent，你只要會打 prompt，剩下整條工程流水線都讓 Agent 替你跑在我的平台上。

換句話說，未來 ML 工程的主戰場，可能不是「哪家模型最強」，而是「哪家平台的 Agent 最會把整條流水線串起來」。Hugging Face 把這個 thesis 寫死進產品裡：用 smolagents 做 agent 框架（自己 2024 開源的）、用 HF Jobs 做算力（自己平台的）、用 Trackio 做實驗追蹤（自己 2025 開源的）、用 Hub 做模型分發（自己核心業務）。整條 stack 都是自家的。

這對 OpenAI、Anthropic 這種沒有平台的公司是壞消息。對 Hugging Face 自己是好消息。對普通開發者、研究員是中性消息：你可以白嫖一整套 ML 工程化的能力，但同時也代表「你能做的事，Agent 都能做」這件事被進一步驗證。

entry-level ML 研究員，第一個被吃光的位子

把鏡頭拉到求職市場。

過去五年，初級 ML 研究員 / Junior ML Engineer 是科技業最熱的 entry-level 職位之一。年薪 12 萬到 25 萬美金。要求碩博士、要會讀 paper、要會復現實驗、要會寫訓練腳本、要會跑 ablation。

我把這幾個要求跟 ml-intern 對一下：

要求	人類初級 ML 研究員	ml-intern
讀 arXiv 論文	✅	✅ 全自動
找 dataset	✅	✅ 全自動
寫訓練腳本	✅	✅ 全自動
跑訓練 + 評估	✅（人工監看）	✅ 全自動
迭代優化	✅（人工調超參）	✅ 全自動
發布模型	✅（人工寫 README）	✅ 全自動
跨團隊溝通	✅	❌
提出原創研究方向	✅（如果是博士）	❌
上限薪水	$250K	算電費

可以看到，ml-intern 還沒辦法做兩件事：跨團隊溝通跟原創研究方向。所以「資深 ML 研究員」「科學家」這個層級暫時安全。但 entry-level、那些主要工作就是「老闆給個方向、自己讀論文跑實驗報結果」的位子？直接危險。

而且 Hugging Face 不是第一個動手的。前幾天 OpenAI 的 Codex 週活也衝到 300 萬、翻了六倍。Anthropic 的 Claude Code 還在拿訂閱費、限縮 Pro Plan 額度。整個產業已經在公開競爭：誰先做出一個能取代 entry-level 工程師的 Agent，誰就能把對方的招聘預算搬到自己的雲端帳單裡。

ml-intern 這條訊號讓賽道變得更清楚：不只是「寫 code 的工程師」會被取代，連「做研究的研究員」也會。entry-level 通通先被吃光，剩下的人要嘛往上爬到「能定義方向」的層級，要嘛往下退到「會用 Agent」的層級。中間那層空了。

怎麼自己玩一玩？

如果你是 ML 工程師、研究生、或就是想看看 Agent 自己跑一輪 ML 是什麼感覺，安裝步驟很短：

git clone git@github.com:huggingface/ml-intern.git
cd ml-intern
export ANTHROPIC_API_KEY=你的key  # 用 Claude 當底層大腦
export HF_TOKEN=你的key            # 拉 dataset、推 model

然後在 CLI 跑或開 Web UI 都可以。

實測建議：

先丟一個小任務：例如「把 Qwen3-0.5B 在某個 instruction-following benchmark 上提升 10%」，看它怎麼讀論文、怎麼找資料。
看它的決策過程：ml-intern 內建會把每一步的「我為什麼這樣做」寫出來，這是學習價值最高的地方。你等於免費看一個會自己思考的 ML 研究員的工作流程。
不要把雲端額度開太高：HF Jobs 是真的會燒錢的，先設個 budget cap。
跟 Claude Code、Codex 同時跑同一個任務：把三個 Agent 同時對同一個任務開工，自己看誰的策略最好，這比看 marketing 數字真實。

寫在最後

過去三年我看過的 AI 工具升級節奏，已經夠快了。

2023：AI 寫 docstring、寫單元測試。
2024：AI 寫 function、寫小專案。
2025：AI 接管整個 repo 的修 bug 跟新功能。
2026 年 4 月：AI 自己讀論文、自己跑研究、自己發模型。

ml-intern 不會是這一波的最後一槍。Hugging Face 把這套架構開源，就代表下個月會有人 fork、會有人改、會有人接到 Cursor 或 Cline 或 OpenCode 上面去跑。

如果你現在還在用「我又不寫程式、跟我沒關係」這個心態看，建議重新校準一下時間軸。ml-intern 等於把「AI 取代 AI 工程師」這條時間表往前拉了至少一年。

Hugging Face 的賭注是：未來 ML 工程的主戰場是 Agent + Platform 的整合，不是模型本身的單機 SOTA。如果這個賭注對了，明年的 ML 招聘市場跟今年不會是同一個東西。

如果你想真的把 AI 變成自己的生產力，入場越早優勢越大。不只是「會用 ChatGPT」這種等級，是「能自己 host 一個 Agent、能讓它替你跑研究、能把它接到你工作流的每一個環節」。

GitHub 連結放這：huggingface/ml-intern。可以白嫖的東西，下載就對了。

資料來源：Hugging Face 官方 GitHub repo（2026-04-25 公開）、MarkTechPost 4/21 預發布報導、ETIH EdTech News 4/25 報導。本文撰寫時為 2026 年 4 月 26 日，模型版本與 benchmark 數據以原始發布版本為準。

加入 Mr. Slash 免費社群

第一時間收到交易所獨家優惠、AI 工具推薦、和市場分析更新

立即加入 Telegram 社群

關於Ｍr. Slash

「Mr. Slash 的系統性人生」，創立於 2024年，由 Mr. Slash 本人及專業編輯團隊經營的財經內容平台。

我們的宗旨是透過投資、財經、自動化與新興科技等領域的深入解說與應用，幫助讀者打造穩定的被動收入系統。內容涵蓋加密貨幣、股息資產、量化工具、平台分潤等實用策略，協助你用更聰明的方法配置資金、累積資產，走在財務自由的路上，少走冤枉路。

若為商業合作邀稿，將會清楚標註「不代表本站立場」。

商業合作

如果您有任何關於我們團隊或網站內容的疑問或建議，歡迎您前往IG 私訊 @slash.Capital聯繫我們，謝謝！

Hugging Face 直接開源一個 ML 工程師：10 小時把模型分數從 8.5% 衝到 32%，打趴 Claude Code 跟 Codex

一個能自己工作的 ML 實習生，現在開源了

它真的會幹什麼？

為什麼是 Hugging Face 自己跳下來做？

entry-level ML 研究員，第一個被吃光的位子

怎麼自己玩一玩？

寫在最後

請按讚：

關於Ｍr. Slash

商業合作

發表迴響取消回覆

被 AI 裁員的下一波是你：3 個週末 + 1000 美元的反殺路線

OKX Card 完整教學｜零手續費刷卡、USDG 回饋最高 5%、活存 10% APY【2026】

2026 最新｜虛擬貨幣是什麼？新手零基礎入門完整指南

2026 最新｜虛擬貨幣交易所排名推薦｜五大交易所完整比較

五大交易所本週活動精選｜2026/04/26｜OKX 春季首入金、Bybit USD1 Carnival、MEXC 八週年