微軟悄悄開源整套語音 AI：VibeVoice 把 60 分鐘 Podcast 變逐字稿，還能合成 4 人 90 分鐘對談

29 4 月, 2026

22 至 33 分鐘

2026 年 3 月初，Hugging Face Transformers 主分支裡多了一個不起眼的 commit。沒有官方部落格大張旗鼓，也沒有 OpenAI 那種發表會式的鋪陳。一行程式碼，整個語音 AI 圈的門檻就被微軟踹開了。

名字叫 VibeVoice。GitHub 上已經 4.5 萬顆星，而且還在每天往上漲。今天要寫的就是這套「悄悄上線」的完整語音全家桶——從聽（Speech-to-Text）、到講（Text-to-Speech）、到即時對話（Realtime），微軟一次把三層全開源了。

VibeVoice 是什麼？一句話版本

VibeVoice 是微軟 Research 推出的一組開源語音 AI 模型，包含三條模型線：ASR-7B（聽）、TTS-1.5B（講）、Realtime-0.5B（即時對話）。三個模型加起來覆蓋了你能想到的所有「跟聲音有關的 AI」場景。

關鍵時間軸：

2026-01-21：微軟首度開源 VibeVoice-ASR，主打一次處理 60 分鐘長音訊。
2026-03-02：模型併入 Hugging Face Transformers 主分支。
2026-03-06：VibeVoice ASR 隨 Transformers v5.3.0 正式發布，等於全世界寫 Python 的人都能用。
近期：新增德、法、日、韓等 9 種語言支援，TTS 從英中擴張到全球主流語系。

之所以說它「悄悄」，是因為這套東西的能力其實已經接近 ElevenLabs 那種頂級商業 TTS、再加上 Whisper 等級的 ASR——但這次微軟連 API key 都不收你的，直接把模型權重丟到 Hugging Face 上。

三個模型，三個立刻能用的場景

不要被技術名稱嚇到。把這三個模型翻譯成你聽得懂的場景，一秒就能對上號。

1. VibeVoice-ASR-7B：把整集 Podcast 一次丟進去

傳統語音識別工具（包括 OpenAI Whisper）有個很煩的限制：一次只能處理 30 秒到幾分鐘的音訊段，超過長度就要自己切。切完還要拼，拼完還要對齊時間戳，整個工作流像在切壽司。

VibeVoice-ASR-7B 直接把這件事做到底：單次最長處理 60 分鐘。不只是聽得懂，輸出還是結構化的——每一句都會帶上「誰講的（Speaker）」「幾分幾秒（Timestamp）」「講了什麼（Content）」。意思是丟一集完整的 Joe Rogan Podcast 進去，出來就是一份直接能編輯成文章的逐字稿，連說話人切換都自動標好。

架構上，它用 24kHz 的聲學 + 語意 tokenizer 把音訊壓縮，再接一個基於 Qwen2 的因果語言模型解碼。技術層面有趣的是，這套設計讓它在處理長音訊時的記憶體佔用比 Whisper 小不少，普通消費級 GPU 也跑得動。

支援 50+ 語言、自定義熱詞（Hotwords）。台股名稱、加密貨幣 ticker、行業黑話都能讓它優先正確辨識。

2. VibeVoice-TTS-1.5B：讓 4 個 AI 演員講 90 分鐘對話

TTS-1.5B 是這套東西最炸的部分。它做的事情，連 ElevenLabs 都還在收費：長達 90 分鐘的多人對話合成，最多 4 個不同說話人。也就是說你寫一份 Podcast 腳本，它直接幫你產一整集多人對談。換氣、停頓、情緒起伏、笑聲，全都自動處理。

核心技術是 「next-token diffusion」——大語言模型負責理解上下文和對話流向，diffusion head 負責生成高保真音訊細節。為什麼能撐到 90 分鐘？因為它用了 7.5 Hz 的超低 frame rate 連續語音 tokenizer，等於把音訊壓縮成一個極短的 token 序列，LLM 才有辦法吞下這麼長的上下文。

實際試用下來，幾個感受值得寫出來：

聲線克隆只要 30 秒到 1 分鐘的範本音訊，相似度比 ElevenLabs 早期版本還高。
多人對話的「打斷」「插話」處理意外地自然，不像很多開源 TTS 的對話像兩個機器人在輪流播報。
支援跨語言：可以讓同一個聲線講中文，再切換到英文，音色保持一致。
會唱歌（這點寫進論文了，可以理解為 prosody 控制做得很細）。

注意一個小八卦：微軟其實在 2025 年 9 月一度把 VibeVoice-TTS 的程式碼從主倉庫拿掉，理由是 Responsible AI 考量（怕被拿去做語音詐騙）。後來社群直接 fork 了一份 vibevoice-community/VibeVoice 維護到現在。要用 TTS 部分，建議從社群 fork 那邊抓。

3. VibeVoice-Realtime-0.5B：跟 AI 對話的延遲，比講國際電話還短

第三個模型是給「即時應用」設計的：流式輸入文字，邊讀邊講。首字延遲（Time-to-first-byte）大約 300 毫秒。這是什麼概念？人類對話的自然反應時間大約是 500~1000ms，VibeVoice-Realtime 已經比真人還快。

它只支援單說話人，所以不要拿來做多人 Podcast。但用來做 AI 主播、語音助手、即時翻譯、live 數據播報，這個延遲是貨真價實的「無感體驗」。0.5B 的參數量也意味著它能跑在 GPU 較差的伺服器、甚至嘗試本地部署。

為什麼「進入 Transformers」這件事比你想得重要

過去開源語音模型有一個共同問題：每家都有自己的 inference 框架。Whisper 用 PyTorch 自己一套、Bark 自己一套、TTS-arena 上每個模型各自為政。要在生產環境跑，工程師得花很多時間搞環境、寫 wrapper。

進入 Hugging Face Transformers 主分支是什麼意思？意思是現在你的程式碼可以這樣寫：

from transformers import AutoProcessor, AutoModel

processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR-HF")
model = AutoModel.from_pretrained("microsoft/VibeVoice-ASR-HF")

# 載入一個 60 分鐘的 podcast
audio = "my_podcast.mp3"
inputs = processor(audio, return_tensors="pt")
transcript = model.generate(**inputs)
print(transcript)

三行程式碼，跑出帶說話人和時間戳的逐字稿。這就是 Transformers 標準介面的價值——所有後續的工具鏈（FastAPI 部署、Gradio demo、自動量化、ONNX 轉換）都能直接套上來，工程成本壓到趨近於零。

跟 ElevenLabs、Whisper 比，VibeVoice 的取捨

把它放到競爭格局裡看，會更清楚這套東西的位置：

項目	VibeVoice 全家桶	OpenAI Whisper + TTS	ElevenLabs
授權	開源（ASR：MIT；TTS：社群維護）	Whisper 開源 / TTS 閉源 API	商業 SaaS
單次處理長度	ASR 60 分鐘 / TTS 90 分鐘	30 秒切片	單次大約 5,000 字
多說話人合成	支援，最多 4 人	不支援	支援，但要按字數分別計費
說話人辨識	內建	需另接 pyannote	不支援
即時延遲	~300ms（Realtime 模型）	API 來回 1~2 秒	~400ms
本地部署	可以	Whisper 可以、TTS 不行	不行
價格	免費（電費自己付）	按分鐘 / 字數計費	$5~$330/月

對於做內容、做投資工具、做客服機器人的開發者來說，這張表的結論很直白：如果你已經有一張可以跑 7B 模型的 GPU，VibeVoice 把語音 AI 的邊際成本壓到接近電費。商業 SaaS 那邊每個月幾十到幾百美金的訂閱費，省下來的就是純利。

當然，VibeVoice 不是沒缺點。最大的兩個短板是：聲線庫不像 ElevenLabs 那樣有現成的「明星音色市集」，多語種品質還不如 OpenAI 的閉源 TTS。但對於 90% 的實際應用場景，VibeVoice 已經夠用了。

散戶能拿它幹嘛？三個今晚就能動手的場景

講了一堆技術，回到讀者最關心的事：這玩意兒對「不寫程式的普通人」有什麼用？

場景一：把你訂閱的所有 Podcast 變成可搜尋的文字檔

很多人有「想聽 Podcast 但沒時間」的痛點。VibeVoice-ASR 可以做的事是：寫一個簡單的 Python 腳本，每天晚上自動把你訂閱的所有節目下載下來，跑成逐字稿，存到 Notion 或 Obsidian 裡。配合 GPT 摘要，5 分鐘看完一集 2 小時的訪談不是夢。

對投資人來說，這個用途特別香。Bloomberg、Bankless、All-In Podcast、TBPN——一週的播客內容濃縮成 1,000 字摘要，效率翻倍。

場景二：用 4 個 AI 演員幫你出 Podcast

內容創作者最大的瓶頸從來不是想法，而是錄製和剪輯時間。VibeVoice-TTS 可以讓你寫一份「主持人 + 來賓 + 聽眾 call-in」的腳本，AI 自動產出整集對談。配合 Claude 或 GPT-5 寫腳本，一個人就能撐起一個多人 Podcast 頻道。

抓兩個倒過來的應用：把你以前寫的部落格文章批量轉成有聲書、把研究報告做成「分析師 vs 操盤手對辯」的 Podcast 形式。流量打開的方式可能會跟過去十年完全不一樣。

場景三：搭一個 24 小時的個人 AI 主播

VibeVoice-Realtime-0.5B 的 300ms 延遲讓「即時 AI 主播」變成現實。串接一個資料源（CoinGecko API、財經新聞 RSS、自家網站的數據），讓 AI 即時播報。半導體類股大跳水、BTC 突破關鍵價位、聯準會官員放鷹——每個事件發生 10 秒內就有語音播出。

這種應用以前要嘛找真人主播（一個月人事費起跳）、要嘛買 ElevenLabs 企業方案。現在一張 RTX 4090 就能搞定。

想試試看？最簡單的入門路徑

給三個不同程度的用戶不同建議：

完全不寫程式：到 Hugging Face Spaces 上找官方 demo，可以線上試聽試用，不用裝任何東西。
會寫一點 Python：本機 pip 安裝最新版 transformers（5.3.0+），照官方 README 的範例跑，半小時內可以出第一份逐字稿。
想做產品：用 Hugging Face Inference Endpoints 或自架 vLLM，把模型部署成 API，後端再串 FastAPI / Gradio，一個週末可以做出 MVP。

我的判斷

VibeVoice 這次最關鍵的不是某個模型有多強，而是微軟把整套語音 AI 工具鏈拼齊、丟進 Hugging Face 標準介面這個動作。

過去語音 AI 的應用門檻在於「拼裝」：要識別、要合成、要說話人分離、要時間戳對齊，每一塊都得自己接。現在 VibeVoice 把這些事打包成一個 import 就能用的標準件，工程成本崩盤。崩盤之後會發生什麼？參考一下圖片生成領域：Stable Diffusion 開源後三個月，AI 繪圖從「設計師專屬」變成全民玩具。語音 AI 的這個時刻，可能就在 2026 下半年。

對 ElevenLabs 這類商業 SaaS 來說，警鐘已經響了。他們的護城河從「模型」轉變到「聲線市集 + 易用性 + 合規性」，但這三件事都不像 GPU 算力那樣有絕對壁壘。

對普通人來說，這意味著未來一年「文字轉語音」「語音轉文字」會像現在用 Google 翻譯一樣免費而且即時。整個內容創作的形態都會被重塑——你打字產出的每一段文字，都可以瞬間變成語音、變成 Podcast、變成 AI 主播在串流平台上 24 小時直播。

所以建議今晚就花一個小時試試看。GitHub 倉庫已經有 4.5 萬顆星，社群 fork 也很活躍。早一個月會用，比晚一個月會用，差出來的就是整段紅利期。

常見問題

VibeVoice 跟 OpenAI Whisper 哪個準？

純看英文識別，Whisper Large v3 還是稍微領先。但 VibeVoice-ASR 在「長音訊」「多說話人」「自定義熱詞」三個場景明顯勝出。如果你做的是 Podcast 整集逐字稿、會議紀錄、訪談轉文字，VibeVoice 的綜合體驗更好。

跑 VibeVoice 需要什麼硬體？

ASR-7B 大約需要 16GB VRAM，一張 RTX 3090 / 4090 就夠。TTS-1.5B 需求更低，8GB VRAM 足以跑通。Realtime-0.5B 連 6GB 顯卡都能塞下，理論上 RTX 3060 都能本地部署。

商用可以嗎？會不會被告？

ASR 部分授權清楚，商用沒問題。TTS 部分因為微軟有 Responsible AI 顧慮，建議用社群 fork（vibevoice-community/VibeVoice），並注意不要拿去做語音克隆詐騙——這條紅線踩了會出大事。

免責聲明：本文僅作技術介紹與工具評測，不構成任何投資建議。AI 工具更新極快，文中提到的版本、定價、功能皆截至 2026 年 4 月，後續可能變動。商用前請務必確認當前授權條款。

加入 Mr. Slash 免費社群

第一時間收到交易所獨家優惠、AI 工具推薦、和市場分析更新

立即加入 Telegram 社群

關於Ｍr. Slash

「Mr. Slash 的系統性人生」，創立於 2024年，由 Mr. Slash 本人及專業編輯團隊經營的財經內容平台。

我們的宗旨是透過投資、財經、自動化與新興科技等領域的深入解說與應用，幫助讀者打造穩定的被動收入系統。內容涵蓋加密貨幣、股息資產、量化工具、平台分潤等實用策略，協助你用更聰明的方法配置資金、累積資產，走在財務自由的路上，少走冤枉路。

若為商業合作邀稿，將會清楚標註「不代表本站立場」。

商業合作

如果您有任何關於我們團隊或網站內容的疑問或建議，歡迎您前往IG 私訊 @slash.Capital聯繫我們，謝謝！

微軟悄悄開源整套語音 AI：VibeVoice 把 60 分鐘 Podcast 變逐字稿，還能合成 4 人 90 分鐘對談

VibeVoice 是什麼？一句話版本