2026 年 5 月 7 號的下午,OpenAI 沒開發布會、沒搞直播,只是在自家部落格放了一句不太搶眼的新聞:「Realtime API 正式 GA。」

這句話底下藏了三個新模型:GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper

三個一起發。一個會推理的語音模型,一個 70 種語言即時翻成 13 種輸出,一個邊聽邊把語音變成逐字稿。三個模型都能透過同一條 WebRTC 連線同時跑。

定價那一欄更狠。翻譯一分鐘 0.034 美金(約台幣 1 塊出頭),轉錄一分鐘 0.017 美金(約台幣 5 毛)。同聲傳譯這個職業,今天被加快了一個維度。

我先把使用情境拆開講,再回頭看為什麼這次發布悄無聲息——但對普通人的衝擊,比上次 GPT-4o 語音模式還要直接。

三個模型在做什麼,用一句話分清楚

OpenAI 這次的命名套路有點亂,因為三個模型字尾各不相同。我用最簡單的對照表先讓你記住誰是誰:

模型 一句話定位 核心能力 定價
GPT-Realtime-2 會推理的語音助理 GPT-5 級推理、128K 上下文、5 級推理深度可調、可被打斷後接回去 $32 / 1M 音訊輸入 token,$64 / 1M 音訊輸出 token
GPT-Realtime-Translate 口譯機 70+ 種輸入語言 → 13 種輸出語言,邊講邊翻 $0.034 / 分鐘
GPT-Realtime-Whisper 逐字稿機 邊講邊轉文字,串流輸出 $0.017 / 分鐘

三個模型的共通點是「即時」——不再是你講完一段話、等模型想 2 秒、再回應,而是講話過程中模型就在處理。OpenAI 內部把這叫做「半雙工 → 全雙工」的跳變。對使用者來說,差別就是「可以正常對話」跟「對著機器人說話」。

GPT-Realtime-2:把 GPT-5 的腦塞進語音這條線

之前的語音模型有個尷尬點:你要是問它一個需要思考的問題(「幫我比較這三家券商的手續費」),它會給你一個聽起來流暢但其實亂編的回答。原因是過去的語音模型為了搶反應速度,沒接到推理層。

GPT-Realtime-2 把這條線打通了。官方規格給了幾個我比較在意的細節:

  • 128K token 上下文——一場 2 小時的會議全部塞得進去,後續還能問「主管說的第三個 KPI 是什麼?」
  • 5 級可調推理深度——簡單的閒聊用第 1 級反應快,要做決策時切第 5 級讓它多想 2 秒。對話不卡頓的同時也不犧牲品質。
  • 音色控制——同一個模型可以講多種音色,不用切模型。
  • 並行工具呼叫——它在跟你講話的同時,可以背地裡同時查資料、發 API、寫日曆。
  • 打斷後可回復——你中途插話糾正它「等等,我說的是 ETF 不是個股」,它能接回原本要講的話而不是整段重來。

定價這邊比較細:$32 / 1M 音訊輸入 token、$64 / 1M 音訊輸出 token。乍看貴,但有 cache token 機制,重複的對話 prompt 部分只算 $0.40 / 1M,實際跑長對話的成本會低很多。

我自己的測試感受是,這個模型最大的價值不是「比上一代強多少」,而是它讓「語音優先」的應用第一次變得實用——以前你會勉強用語音輸入做 demo,現在你會願意用語音當主要介面。

GPT-Realtime-Translate:每分鐘 0.034 美金的口譯

這個模型對非工程師讀者衝擊最大。直接把場景說一次:

你戴著耳機,跟一個只會講越南語的人面對面坐著。他講一句越南語,你的耳機 0.5 秒後傳出中文。你回一句中文,他那邊耳機 0.5 秒後傳出越南語。整段對話你不用按任何按鈕,也不用等對方講完才能聽翻譯

這不是科幻場景,是 OpenAI 5 月 7 號之後任何一個開發者都能在一個下午內做出來的東西。70 種輸入語言→13 種輸出語言,每分鐘 0.034 美金。一小時 2 美金多,比點一杯星巴克便宜。

跟過去的同聲傳譯比一次:人類同聲傳譯一場 2 小時的會,行情在台幣 1 萬 5 到 3 萬之間。GPT-Realtime-Translate 同樣 2 小時:4.08 美金,約台幣 130 元。

對誰最有感?我列幾個我自己想得到的場景:

  1. 跨語直播主——觀眾用 5 種語言留言,主播用中文回覆,每個觀眾耳機聽到自己語言的回覆。互動成本歸零。
  2. 跨境客服——東南亞客戶打電話進來,客服是台灣中文母語人員,雙邊耳機都聽得到自己語言。一個客服可以服務 13 個語區。
  3. 會議即時翻譯——跨國商務會議直接開,不用排同聲傳譯,會後自動轉逐字稿(搭配 Whisper)。
  4. 跟外國親戚聊天——這是被忽略的家庭場景。父母不會英文,孫子在美國,視訊靠它。

13 種輸出語言目前是哪些?OpenAI 還沒公開完整清單,但行業媒體 MarkTechPost 的整理提到主流商業語言(英、中、西、法、德、葡、日、韓、阿、印尼)幾乎全部覆蓋。輸入端 70+ 種就涵蓋幾乎所有亞洲跟歐洲語言。

GPT-Realtime-Whisper:把錄音轉文字的成本壓到一杯飲料的零頭

Whisper 這個品牌大家不陌生,過去兩年很多 AI 工具底層用的就是它。這次新版的關鍵字是「即時串流」——不是錄完一整段再轉檔,而是邊講邊出字

定價 $0.017 / 分鐘。換算一下:

  • 1 小時錄音轉字 = 1 美金(約台幣 32 元)
  • 10 小時錄音 = 10 美金
  • 對比:傳統人工逐字稿一小時 1,500 到 3,000 台幣

對誰有用?最直接的是 podcast 創作者、YouTuber、會議紀錄這三條線。Tony 自己也在用——之前我每週訪談一輪聊投資的朋友,2 小時音檔丟給人工逐字稿是 4,000 元,現在 2 美金搞定。

但別對它有不切實際的幻想:專有名詞的轉錄錯誤率還是有,特別是台灣口音的中文夾雜英文金融術語(什麼 ETF、AGI、yield farming),它偶爾會聽錯。我的建議是把 Whisper 的輸出當「90% 完成的草稿」,不是「直接交件的成品」。

跟競品比一次:Google、Anthropic、Deepgram

語音 AI 這條賽道過去一年很擁擠,OpenAI 不是唯一玩家。我把目前主流的選項放在同一張表上比一次:

方案 會推理嗎 即時翻譯 即時轉錄 每分鐘成本(轉錄)
OpenAI Realtime API(5/7 GA) ✅ GPT-5 級 ✅ 70→13 語言 ✅ 串流 $0.017
Google Gemini Live ✅ Gemini 2 級 ⚠️ 需自串 ✅ 串流 $0.025
Anthropic Claude Voice(仍 beta) ✅ Sonnet 級 ❌ 沒原生支援 ⚠️ 需外接
Deepgram Nova-3 ❌ 純轉錄 ⚠️ 拼接式 ✅ 串流 $0.0058

結論寫在前面:純轉錄需求 Deepgram 還是最便宜,要對話加推理 OpenAI 這次跳出來最完整,要免費自架 Gemini Live 是後備方案。Anthropic 的 Claude Voice 還在 beta,不是主流選項。

對哪些工作有真實的衝擊?我列三個方向

這部分我不打算迴避——這次發布之後,有些工作的時薪會被腰斬。但我也不想複製坊間「AI 取代某某職業」的標題黨論調,所以我把感受講清楚:

1. 同聲傳譯。短期內高端會議(外交、頂級商務談判)人類還是首選,因為這些場合容錯率為零。但中低階會議、跨境直播、客服場景,2026 下半年會大量切到 AI。從業者要嘛上移到「客戶需要『一個真人在場』」的高端定位,要嘛下移成「AI + 校稿」的混合工作流。

2. 逐字稿員 / 會議紀錄員。這個職業被衝擊得更直接。一小時 1 美金的成本之下,這條線基本上只剩「校稿」這個環節。建議轉型方向是「轉成資料整理 + 重點摘要」這種需要判斷力的角色,而不是純粹的打字。

3. 客服。這條最複雜。語音 AI 已經能處理 70% 的常見問題,但「需要情緒共鳴」「需要破例授權」的情境還是需要人。客服這個職業不會消失,但「規模會被壓縮」——一個客服中心可能從 100 人精簡到 30 人 + 一套 AI 系統。

我的觀察是,這次的衝擊跟以前 ChatGPT 出來不一樣。ChatGPT 衝擊的是「文字工作」,但很多人對文字 AI 還是有心理距離(要打字、要進網頁)。語音 AI 衝擊的是「人對人對話」這個原本被認為最不可替代的場景,而且使用門檻是「戴上耳機」。心理距離比 ChatGPT 短得多。

散戶投資者的相關 watchlist(不是投資建議)

講了這麼多技術細節,回到 Tony 的散戶讀者最在意的問題:這次發布對股市有沒有相關 ticker 值得追?我列幾個方向,純粹是觀察清單,不是叫你去買:

  • NVDA(NVIDIA)——語音模型推理算力的最大受益方,這條線跟之前任何一次大廠語音發布都一樣。
  • MSFT(微軟)——OpenAI 主要金主、Azure 是 Realtime API 的部署平台之一。每次 OpenAI 發新模型微軟基本都跟漲。
  • 傳統電話客服外包股(Concentrix CNXC、TaskUs TASK)——這條線值得反向觀察,看市場怎麼定價「客服自動化」的衝擊。
  • 翻譯軟體股——Wall Street Journal 之前提過 DeepL 在準備 IPO,但這次 OpenAI 的翻譯模型直接擠壓 DeepL 的核心市場。後續 IPO pricing 值得追。

⚠️ 上述只是觀察方向,不是投資建議。投資有風險,加密貨幣、外匯、股票都可能有重大虧損。請依個人風險承擔能力決定。

30 秒上手:你今天就能做的事

如果你看完想自己玩一下,最快的路徑是這樣:

  1. platform.openai.com 開帳號(已經有 ChatGPT 帳號可以直接登)
  2. 儲值最少 5 美金(夠玩 4 小時翻譯 + 5 小時轉錄)
  3. 到 Realtime Playground 直接試 GPT-Realtime-2,左上角切到 Translate 或 Whisper 模式
  4. 選輸入裝置(你的 mic)、輸入語言、輸出語言,按開始說話

不會寫程式也能玩。要做應用就接 WebRTC SDK,OpenAI 提供 JavaScript / Python / Swift / Kotlin 的範例。文件在 platform.openai.com/docs/guides/realtime

結論:這次比上次 GPT-5 發布更值得認真看

4 月 GPT-5 發布的時候我寫過「對普通人短期內不會有差別」。這次三件套發布,反過來:對普通人有立刻的差別,反而對開發者社群衝擊沒這麼大,因為 API 介面跟之前差不多。

原因是這次發布解掉的不是「模型不夠強」這個技術問題,而是「真實對話這個介面終於可用」這個體驗問題。

有兩件事我想留給讀者:

  • 場景優先,不是模型優先——別只看「GPT-Realtime-2 有多強」,要問「你身邊哪個重複的對話場景,可以掛上這條線?」客服?跨語溝通?會議紀錄?答案出來了,你的解就有了。
  • 同聲傳譯這個職業,今天的時薪可能不變,但 12 個月後的市場結構會大不一樣——這不是要嚇人,是給做相關工作的朋友一個提早準備的時間窗。

下一篇我打算實測 GPT-Realtime-Translate 跟 Google Translate 的中越翻譯品質對比,數據出來再寫一篇給看。

📌 本文資訊截至 2026 年 5 月 9 日。AI 工具更新頻率高,定價跟功能可能變動,請以 OpenAI 官方公告為準。

🔔 不投資建議:本文提及的個股 ticker 僅供學習觀察用途,不構成投資建議。投資有風險,請依個人風險承擔能力做決定。

關於Mr. Slash

「Mr. Slash 的系統性人生」,創立於 2024年,由 Mr. Slash 本人及專業編輯團隊經營的財經內容平台。

我們的宗旨是透過投資、財經、自動化與新興科技等領域的深入解說與應用,幫助讀者打造穩定的被動收入系統。內容涵蓋加密貨幣、股息資產、量化工具、平台分潤等實用策略,協助你用更聰明的方法配置資金、累積資產,走在財務自由的路上,少走冤枉路。

若為商業合作邀稿,將會清楚標註「不代表本站立場」。

商業合作

如果您有任何關於我們團隊或網站內容的疑問或建議,歡迎您前往IG 私訊 @slash.Capital聯繫我們,謝謝!

發表迴響

Trending

探索更多來自 Mr. Slash|系統流人生 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Join Mr. Slash