最後更新:2026 年 6 月 17 日
你不用再請配音員了。也不用再為 ElevenLabs 的月費糾結。清華系團隊 OpenBMB 剛把一個叫 VoxCPM2 的 AI 語音模型整包免費開源——你打一句「年輕女聲、溫柔、語速稍快」,它就直接造出一把世界上不存在的新聲音。給它幾秒鐘的參考音,它能克隆任何人的聲線。輸出還是 48kHz 錄音室級。重點:支援 30 種語言,連粵語、四川話、閩南話都有。
一句話結論:VoxCPM2 是目前最值得試的免費開源 AI 配音模型,能「純文字描述生成新聲音」和克隆人聲、可商用;想省下 ElevenLabs 月費、又願意動手裝的人首選,完全不想碰程式碼的人則繼續用付費雲端服務。
VoxCPM2 到底是什麼?跟一般 TTS 差在哪?
差在它「不切碎」。傳統的 AI 語音是把聲音切成一個個離散 token 再拼回去,容易丟細節、聽起來有電子味。VoxCPM2 走的是 tokenizer-free(免分詞)路線,直接生成連續的語音表徵,所以咬字、語氣、停頓都更自然。
它是一個 20 億參數的模型,訓練在超過 200 萬小時的語音資料上,建在 MiniCPM-4 這個語言模型骨幹之上。三件事讓它跟市面上的免費 TTS 拉開差距:
- Voice Design(聲音設計):不需要任何參考音檔。你只要在文字前面加一段括號描述,例如「(一位年輕女性,溫柔甜美的聲音)」,它就憑空生成一把符合描述的全新聲音。這是大多數免費工具做不到的。
- Controllable Cloning(可控克隆):丟一段幾秒的參考音,它複製音色;同時你還能用指令調整情緒、語速、風格,音色不變。
- 48kHz 錄音室級輸出:就算你給它的參考音只有 16kHz,它也能直接輸出 48kHz 高音質,內建超解析,不用另外接升頻工具。
VoxCPM2 支援粵語嗎?中文配音實測如何?
支援。官方列出的 30 種語言裡,中文是重點語種,而且額外支援 9 種中文方言:粵語、四川話、吳語、東北話、河南話、陝西話、山東話、天津話、閩南話。對香港和華語區的內容創作者來說,這點很實用——你做粵語 Podcast、廣東話有聲書、或本地化客服語音,過去很難找到一個免費又自然的方案,現在有了。
在公開的 Seed-TTS 與多語言測試上,VoxCPM2 的中文錯字率(CER)做到 0.97%,聲線相似度(SIM)約 79.5%,跟要付費的 ElevenLabs、MiniMax 打得有來有回,部分指標還更好。對散戶級的應用(配旁白、做短影片、生成語音助理)來說,這個水準已經夠用。
VoxCPM2 跟 ElevenLabs、OpenAI TTS 比,該選哪個?
一句話:要省錢、能動手,選 VoxCPM2;要零門檻、即開即用,付費雲端服務還是更省事。下面這張表幫你三分鐘做決定(價格以官網為準,截至 2026 年 6 月)。
| 項目 | VoxCPM2(開源) | ElevenLabs | OpenAI TTS |
|---|---|---|---|
| 費用 | 免費(Apache-2.0 可商用) | 約 US$5–99/月起 | 按用量計費(API) |
| 純文字生成新聲音 | ✅ Voice Design | ✅(付費功能) | ❌ 固定音色 |
| 聲音克隆 | ✅ 幾秒參考音 | ✅(付費方案) | ❌ |
| 粵語/中文方言 | ✅ 9 種方言 | 有限 | 有限 |
| 音質 | 48kHz | 高 | 高 |
| 上手門檻 | 要會裝 Python(或用網頁 Demo) | 網頁直接用 | 要寫 API |
| 資料隱私 | 可全本地運行 | 上傳雲端 | 上傳雲端 |
一年能省多少?算給你看(互動試算機)
把你現在每月花在 AI 配音/語音工具的訂閱費填進去,算算改用 VoxCPM2(免費)一年能省下多少。
VoxCPM2 怎麼安裝、怎麼用?(零基礎步驟)
不想碰程式碼的人,可以直接用官方的網頁 Demo(Playground)試聽效果,不用安裝。願意裝在自己電腦上的人,只要會複製貼上指令就行,步驟如下:
- 確認環境:需要 Python 3.10–3.12、PyTorch 2.5 以上、CUDA 12 以上的 NVIDIA 顯卡(約 8GB 顯存)。沒有獨顯也能用 CPU,只是慢。
- 一行安裝:打開終端機,輸入
pip install voxcpm。 - 生成新聲音(Voice Design):在文字最前面用括號寫描述,例如
(一位年輕女性,溫柔甜美的聲音)你好,歡迎來到 VoxCPM2!,模型就會造出對應的聲線並念出來。 - 克隆聲音:準備一段幾秒的參考音檔,呼叫時帶上
reference_wav_path參數,它就會用那把聲音念你給的文字。 - 開網頁介面:執行
python app.py,瀏覽器打開就有圖形介面,免寫程式碼操作。
整套權重和程式碼都用 Apache-2.0 授權,免費而且可以商用——這點很關鍵,很多「免費」開源模型其實禁止商用,VoxCPM2 沒有這個限制。
把免費配音變成收入:3 個實際出路
會用工具只是第一步,能不能接到「賺錢」才是重點。一個免費、可商用、能克隆聲音的語音模型,等於幫你把幾條副業的成本砍到接近零:
- 短影片 / YouTube 旁白外包:過去配一支片的旁白要花錢請人或買訂閱,現在你用 VoxCPM2 設計一把固定品牌聲線,量產內容、接案幫人做旁白,成本只剩你的時間。
- 有聲書 / Podcast:把文字稿批次轉成語音,做粵語或國語有聲內容,上架平台收訂閱或廣告分潤。
- 本地小生意的語音客服 / 語音導覽:幫餐廳、診所、零售店做自動語音應答或商品介紹語音,一次設定長期收費。
核心邏輯一樣:AI 把「原本要花錢的環節」變成零成本,你賺的是「把它接到真實需求」這一段的差價。
不喜歡 VoxCPM2?還有這些替代方案
沒有顯卡、或不想自己架,可以考慮這幾個:ElevenLabs(最省事、商業級,但要付月費)、OpenAI TTS(接 API、適合已經在用 GPT 的人)、開源陣營裡的 Fish Audio、F5-TTS、CosyVoice 也都值得一試。如果只是偶爾配幾句話,雲端付費服務按用量算,反而比自己架機器划算。
常見問題 FAQ
VoxCPM2 真的完全免費嗎?
是。模型權重和程式碼都用 Apache-2.0 授權,免費下載、可商用。唯一成本是你自己運行的硬體和電力。
沒有顯卡可以用嗎?
可以,支援 CPU 與 Apple Silicon(MPS)運行,但生成速度會明顯變慢。想要即時生成,建議用 NVIDIA 顯卡(約 8GB 顯存)。
克隆別人的聲音合法嗎?
技術上做得到,但官方明確禁止用於假冒、詐騙、散播不實資訊。克隆他人聲音前務必取得本人同意,並標明是 AI 生成內容。
它跟 ElevenLabs 的差距大嗎?
在自然度和多語言上已經很接近,部分中文指標還更好。最大的差距在「省事程度」——ElevenLabs 開網頁就能用,VoxCPM2 要自己裝。願意動手的人,幾乎沒有理由不省下這筆月費。
結論:該不該換到 VoxCPM2?
如果你是內容創作者、做副業、或本身就有點技術底子,VoxCPM2 幾乎是必試——免費、可商用、支援粵語、能憑一句描述造出新聲音,這組合在 2026 年很難找到第二個。如果你完全不想碰安裝、只是偶爾要配幾句話,那繼續用付費雲端服務也沒錯,省下的是時間。配音這件事的門檻,從今天起基本歸零了。
- ✅ 先去官方 Playground 試聽效果,不用安裝
- ✅ 有顯卡就
pip install voxcpm裝起來 - ✅ 用 Voice Design 設計一把你的品牌聲線
- ✅ 用上面的試算機算算一年能省多少訂閱費
- ✅ 想到一個能用它賺錢的副業,今天就開始
利益揭露:本文部分連結或工具可能帶來少量回饋,不影響你的使用權益,也不影響本文評測立場。AI 工具更新極快,文中數據與定價截至 2026 年 6 月,實際以各官網為準。本文為資訊分享,非投資或商業建議。





發表迴響