截至 2026 年 4 月 26 日。Hugging Face 4 月 25 日把 ml-intern 開源了。一個能自己讀 arXiv 論文、自己挑資料集、自己跑訓練、自己發模型的 Agent。10 小時把 Qwen3-1.7B 的 GPQA 分數從 8.5% 衝到 32%,同時把 Claude Code 跟 Codex 都壓了下去。entry-level 的 ML 研究員位子,就是這樣被吃光的。
一個能自己工作的 ML 實習生,現在開源了
先看數字。
Qwen3-1.7B,一個小到能在筆電上跑的模型,原始 GPQA(研究生級科學推理)分數只有 8.5%。
把這個模型丟給 ml-intern。10 小時後,分數衝到 32%。
中間沒有人類介入。沒人寫訓練腳本、沒人標資料、沒人調超參數。ml-intern 自己讀了相關論文,自己去 Hugging Face Hub 上挑資料集,自己決定用什麼方法、自己跑訓練、自己評估、自己迭代。
同樣的任務丟給 Claude Code,分數 22.99%。丟給 OpenAI 的 Codex,在另一個 HealthBench 醫療基準上,ml-intern 直接贏了 60%。
簡單一句話:在「自己研究自己訓練模型」這條賽道上,Hugging Face 親手開源的 Agent,把 Anthropic 跟 OpenAI 的旗艦級 coding agent 都壓了下去。
而且它免費。原始碼在 GitHub 上:huggingface/ml-intern。
它真的會幹什麼?
ml-intern 不是「自動補 code 的小工具」,是「會把整套 ML 後訓練流程做完的初級研究員」。
實際工作流程拆出來大概長這樣:
第一步,讀論文。你給它一個任務目標,例如「讓 Qwen3-1.7B 的科學推理變強」。它會去 arxiv.org 跟 hf.co/papers,把相關論文整篇讀完,不只是看摘要;同時走引文圖譜,看這篇論文引用了什麼、被什麼人引用,把方法論這個段落啃完。
第二步,找資料集。讀完論文之後,它知道應該找什麼類型的訓練資料。它會去 Hugging Face Hub 搜,找出論文裡提到的 dataset,自己把資料集打開來看欄位、看品質、看格式對不對。如果格式不對,它自己寫 reformat 腳本把資料整理好。
第三步,跑訓練。如果你本地有 GPU,它在你本地跑。如果沒有,它直接呼叫 Hugging Face Jobs 雲端跑。整個訓練腳本它自己寫、自己 launch、自己看 log。實驗追蹤用 Hugging Face 自家的 Trackio,全開源、可重現。
第四步,評估與迭代。訓練完之後它跑 benchmark,看結果,自己決定下一輪要怎麼調整。如果第一版結果不好,它會回去再讀論文、再找新方法、再跑一次。整個 loop 完全自動。
第五步,發模型。跑出滿意的版本之後,它直接把模型推上 Hugging Face Hub,附帶 model card、訓練紀錄、評估結果。從零到「公開可用的模型」整套流水線一次走完。
這套東西你雇一個人類初級 ML 工程師也是這樣做的。差別是 ml-intern 不用睡覺、不用週末、不會發牢騷、薪水是電費。
為什麼是 Hugging Face 自己跳下來做?
這條訊號比 ml-intern 本身的功能更重要。
過去三年,AI 工程化工具市場是這樣運作的:模型公司賣模型(OpenAI 賣 GPT、Anthropic 賣 Claude);工具公司賣工具(Cursor、Copilot、Replit Agent);平台公司賣平台(Hugging Face 賣 Hub、賣推論、賣 Jobs)。三方各做各的、互相靠市場分工撐起一個生態。
Hugging Face 開源 ml-intern 等於宣布:平台公司不打算再被動等你來用我的 API,我自己做一個 Agent,你只要會打 prompt,剩下整條工程流水線都讓 Agent 替你跑在我的平台上。
換句話說,未來 ML 工程的主戰場,可能不是「哪家模型最強」,而是「哪家平台的 Agent 最會把整條流水線串起來」。Hugging Face 把這個 thesis 寫死進產品裡:用 smolagents 做 agent 框架(自己 2024 開源的)、用 HF Jobs 做算力(自己平台的)、用 Trackio 做實驗追蹤(自己 2025 開源的)、用 Hub 做模型分發(自己核心業務)。整條 stack 都是自家的。
這對 OpenAI、Anthropic 這種沒有平台的公司是壞消息。對 Hugging Face 自己是好消息。對普通開發者、研究員是中性消息:你可以白嫖一整套 ML 工程化的能力,但同時也代表「你能做的事,Agent 都能做」這件事被進一步驗證。
entry-level ML 研究員,第一個被吃光的位子
把鏡頭拉到求職市場。
過去五年,初級 ML 研究員 / Junior ML Engineer 是科技業最熱的 entry-level 職位之一。年薪 12 萬到 25 萬美金。要求碩博士、要會讀 paper、要會復現實驗、要會寫訓練腳本、要會跑 ablation。
我把這幾個要求跟 ml-intern 對一下:
| 要求 | 人類初級 ML 研究員 | ml-intern |
|---|---|---|
| 讀 arXiv 論文 | ✅ | ✅ 全自動 |
| 找 dataset | ✅ | ✅ 全自動 |
| 寫訓練腳本 | ✅ | ✅ 全自動 |
| 跑訓練 + 評估 | ✅(人工監看) | ✅ 全自動 |
| 迭代優化 | ✅(人工調超參) | ✅ 全自動 |
| 發布模型 | ✅(人工寫 README) | ✅ 全自動 |
| 跨團隊溝通 | ✅ | ❌ |
| 提出原創研究方向 | ✅(如果是博士) | ❌ |
| 上限薪水 | $250K | 算電費 |
可以看到,ml-intern 還沒辦法做兩件事:跨團隊溝通跟原創研究方向。所以「資深 ML 研究員」「科學家」這個層級暫時安全。但 entry-level、那些主要工作就是「老闆給個方向、自己讀論文跑實驗報結果」的位子?直接危險。
而且 Hugging Face 不是第一個動手的。前幾天 OpenAI 的 Codex 週活也衝到 300 萬、翻了六倍。Anthropic 的 Claude Code 還在拿訂閱費、限縮 Pro Plan 額度。整個產業已經在公開競爭:誰先做出一個能取代 entry-level 工程師的 Agent,誰就能把對方的招聘預算搬到自己的雲端帳單裡。
ml-intern 這條訊號讓賽道變得更清楚:不只是「寫 code 的工程師」會被取代,連「做研究的研究員」也會。entry-level 通通先被吃光,剩下的人要嘛往上爬到「能定義方向」的層級,要嘛往下退到「會用 Agent」的層級。中間那層空了。
怎麼自己玩一玩?
如果你是 ML 工程師、研究生、或就是想看看 Agent 自己跑一輪 ML 是什麼感覺,安裝步驟很短:
git clone git@github.com:huggingface/ml-intern.git
cd ml-intern
export ANTHROPIC_API_KEY=你的key # 用 Claude 當底層大腦
export HF_TOKEN=你的key # 拉 dataset、推 model
然後在 CLI 跑或開 Web UI 都可以。
實測建議:
- 先丟一個小任務:例如「把 Qwen3-0.5B 在某個 instruction-following benchmark 上提升 10%」,看它怎麼讀論文、怎麼找資料。
- 看它的決策過程:ml-intern 內建會把每一步的「我為什麼這樣做」寫出來,這是學習價值最高的地方。你等於免費看一個會自己思考的 ML 研究員的工作流程。
- 不要把雲端額度開太高:HF Jobs 是真的會燒錢的,先設個 budget cap。
- 跟 Claude Code、Codex 同時跑同一個任務:把三個 Agent 同時對同一個任務開工,自己看誰的策略最好,這比看 marketing 數字真實。
寫在最後
過去三年我看過的 AI 工具升級節奏,已經夠快了。
2023:AI 寫 docstring、寫單元測試。
2024:AI 寫 function、寫小專案。
2025:AI 接管整個 repo 的修 bug 跟新功能。
2026 年 4 月:AI 自己讀論文、自己跑研究、自己發模型。
ml-intern 不會是這一波的最後一槍。Hugging Face 把這套架構開源,就代表下個月會有人 fork、會有人改、會有人接到 Cursor 或 Cline 或 OpenCode 上面去跑。
如果你現在還在用「我又不寫程式、跟我沒關係」這個心態看,建議重新校準一下時間軸。ml-intern 等於把「AI 取代 AI 工程師」這條時間表往前拉了至少一年。
Hugging Face 的賭注是:未來 ML 工程的主戰場是 Agent + Platform 的整合,不是模型本身的單機 SOTA。如果這個賭注對了,明年的 ML 招聘市場跟今年不會是同一個東西。
如果你想真的把 AI 變成自己的生產力,入場越早優勢越大。不只是「會用 ChatGPT」這種等級,是「能自己 host 一個 Agent、能讓它替你跑研究、能把它接到你工作流的每一個環節」。
GitHub 連結放這:huggingface/ml-intern。可以白嫖的東西,下載就對了。
資料來源:Hugging Face 官方 GitHub repo(2026-04-25 公開)、MarkTechPost 4/21 預發布報導、ETIH EdTech News 4/25 報導。本文撰寫時為 2026 年 4 月 26 日,模型版本與 benchmark 數據以原始發布版本為準。
發表迴響