ByteDance 又不聲不響開了一個 repo。沒有發布會、沒有 CEO 出來敲鑼、沒有 keynote,但 GitHub 星數已經悄悄堆到 33,700。

它叫 UI-TARS-desktop。一句話講完它在幹嘛:你裝在自己電腦上,AI 直接「看」你的螢幕,自己動滑鼠、自己敲鍵盤,幫你跑完整套桌面操作。

以前你跟 AI 對話,AI 只能跟你打字。現在 AI 不只回你話,它還能爬進你的電腦,自己打開瀏覽器、自己抓資料、自己貼進 Excel。

截至 2026 年 5 月,這個項目已經悄悄爬到 GitHub 上 AI agent 類別前段班,本週日榜還在繼續加星。OpenAI Operator 跟 Anthropic Computer Use 兩家收費的 closed source 對手剛把方向定好,ByteDance 直接把 Apache 2.0 開源版甩出來,免費商用、可本地部署。

這篇我會講三件事:UI-TARS-desktop 到底是什麼、跟 OpenAI Operator / Anthropic Computer Use 比起來差多少、以及一個普通人現在該不該裝它。

不是聊天框,是「電腦遙控器」

過去兩年我們用 AI 的方式很單調:開 ChatGPT、輸入 prompt、看回答、複製貼上。AI 在一個方框裡,我們在方框外。

UI-TARS 想做的是把那個方框拆掉。它的核心是 ByteDance 自己訓練的 Seed-1.5-VL / 1.6 系列視覺語言模型(VLM),這個模型最重要的能力是「看螢幕」——拿到一張你電腦螢幕的截圖,它能認出哪個是按鈕、哪個是輸入框、哪個是關閉鍵。

看到之後呢?它會根據你下達的自然語言指令,決定接下來該點哪裡、輸入什麼。然後實際發出滑鼠和鍵盤指令。整個迴圈是這樣的:

  1. 你用人話下指令:「幫我把 Notion 裡『本週待辦』那頁的內容截圖貼到 Slack 工作頻道」
  2. AI 截圖你目前的螢幕
  3. VLM 模型分析畫面,鎖定 Notion 圖示在哪
  4. 發出點擊指令
  5. 等畫面跳出 Notion 後再截一張
  6. 循環直到任務完成

聽起來簡單,做出來很難。難的點是模型要「看得懂」混亂的真實電腦畫面,而且不能把錯按鈕當成對的按鈕——你不會希望 AI 幫你刪檔,結果它去按了「全選清空垃圾桶」。

UI-TARS 跟 Anthropic Computer Use 的單純視覺路線、Playwright MCP 的純 DOM 操作路線都不同。它走的是 hybrid 路線:能看得到的就用視覺,能用 DOM 抓的就用 DOM,搭配 MCP 原生架構。

這條路線在 benchmark 數字上有用:UI-TARS-2 拿到 OSWorld 47.5%、AndroidWorld 73.3%、WindowsAgentArena 50.6%。

跟 OpenAI Operator、Anthropic Computer Use 怎麼比?

2025 年 1 月 OpenAI 推 Operator、Anthropic 在 2024 年 10 月就先放 Computer Use。三家都在做同一件事——讓 AI 操作電腦——但路線、價格、開放度差很多。直接上表:

項目 ByteDance UI-TARS-desktop OpenAI Operator Anthropic Computer Use
授權 Apache 2.0(免費、商用、本地跑) 閉源 閉源(API)
價格 免費(自付 GPU 成本) 每月 $200(ChatGPT Pro) 按 API token 計費
地區限制 限美國 全球 API 可用
操作對象 本地電腦 + 瀏覽器 雲端虛擬瀏覽器 本地電腦 + 瀏覽器
OSWorld 分數 47.5%(UI-TARS-2) 38.1% 未公開單獨分數
適合誰 開發者、企業內部部署 美國一般用戶 企業、開發者

把這張表翻成白話:

OpenAI Operator 的問題是貴跟卡。一個月 200 美元,而且只能在美國用。它跑在雲端虛擬瀏覽器裡,你看不到、也碰不到那台機器。對普通人沒什麼吸引力。

Anthropic Computer Use 的問題是要寫 code 接 API。它是給開發者用的工具,不是給你「裝完就用」的 app。每跑一次都在燒 token 錢。

UI-TARS-desktop 的算盤是:免費裝、本地跑、Apache 2.0 你愛改隨便改。對 ByteDance 的策略意義很清楚——OpenAI 跟 Anthropic 在收費版本還在摸索定價的時候,先用開源把整個 GUI agent 賽道的標準佔下來。一年後不管哪家收費,ByteDance 在開發者生態裡的滲透率已經跑在前面。

普通人現在裝它,能幹嘛?

講真話:現在裝 UI-TARS-desktop 不是「換掉你的 ChatGPT」,是「多一個玩具來測試 AI 操作電腦到底成熟到什麼程度」。

適合裝來玩的場景:

  • 重複性桌面操作:批量改檔名、整理資料夾、批量複製貼上、跨 app 搬資料
  • 網頁資料抓取:開瀏覽器 → 登入 → 抓表格 → 存成 CSV,這條鏈用 UI-TARS 跑得起來
  • 桌面截圖標註:自動截圖、自動標重點、自動存進資料夾
  • 跨應用程式工作流:例如「把 Gmail 第一封信的內容貼到 Notion 然後在 Slack 通知 Tony」

不適合的場景:

  • 動財產類操作(轉帳、下單、買幣)——AI agent 還沒成熟到你敢放手
  • 需要嚴格隱私的工作(醫療紀錄、客戶名單)——本地跑沒問題,但要看你接什麼模型
  • 螢幕畫面非常複雜或自定義介面太多——VLM 還是會迷���

三步驟把它跑起來

UI-TARS 的兄弟項目 Agent TARS CLI 是最快的上手途徑。前提你電腦要有 Node.js 22 以上版本。

  1. 確認 Node.js 版本:node -v,低於 22 就先去 nodejs.org 升版
  2. 直接跑:npx @agent-tars/cli@latest,第一次會自動拉檔
  3. 跑起來後,照畫面引導接你的模型——可以接 Hugging Face 上的 UI-TARS 系列,也可以接火山引擎的 Ark 服務

第一次跑建議先給簡單任務:「打開 Chrome,搜尋『slash-invest.com』,把第一條結果複製到剪貼簿。」讓你看到整個感知—決策—執行的迴圈是怎麼跑的。看完你就懂為什麼這條路線比純 API 更接近真實的「AI 員工」。

v0.2.0 之後還多了 Remote Computer Operator 跟 Remote Browser Operator——意思是你可以一台電腦上跑 agent、操控另一台電腦或瀏覽器。對開發者來說,這條路通往「用 AI 跑一整個遠端工作站」。

Mr. Slash 的觀點:這代表什麼

三個判斷給你帶走:

第一,GUI agent 賽道進入「免費 vs 收費」分化期。OpenAI Operator 一個月 200 美元、Anthropic Computer Use 按 token 計費,現在 ByteDance 用 Apache 2.0 把同等級能力丟出來。再往後幾個月,會看到更多開發者把 UI-TARS 當作底座,做出垂直版本(給律師用的、給會計用的、給交易員用的)。閉源那兩家要嘛壱價,要嘛把錢花在更高階的場景(複雜推理、長程任務)。

第二,VLM「會看螢幕」的能力,已經是 AI agent 的基礎建設。不是「未來會發生」,是「已經發生」。OSWorld 從 2024 年初的 12% 漲到 2026 年 5 月的 47.5%,這條曲線比 LLM 在數學推理上的進步還陡。看得懂螢幕,意味著 AI 可以用你原本就在用的任何軟體——不需要那個軟體提供 API。

第三,對普通人最大的影響是:哪些工作會被「螢幕級自動化」吃掉?之前的 RPA(Robotic Process Automation)要程式設計師寫腳本,現在是自然語言下指令就能跑。客服、行政、資料錄入、初級分析師這幾個職位,會比你想像中更快被擠壓。AI 不需要做到 100%,做到 60% 同一份工作就只剩半條命。

建議現在就動手裝一個跑跑看。不是為了用它做正事,是為了親眼看一次「AI 自己點滑鼠」是什麼感覺。看完之後再回頭想你自己的工作有哪些環節會被吃掉,你會比 90% 的人更早做出調整。

下一步打算寫一篇實測,用 UI-TARS-desktop 跑「自動化加密貨幣盤面截圖+貼到 Telegram 群」這條工作流,看看當前版本到底穩不穩。想看的話 follow Mr. Slash 的 X 帳號等更新。

免責聲明:本文僅為 AI 工具評測與行業觀察,不構成投資建議。文中提及的工具截至 2026 年 5 月 14 日資訊;GitHub 星數、模型 benchmark 數據會隨時間變動。下載及使用開源工具請評估你的本機環境與隱私需求,作者及網站對使用後果不負責任。

關於Mr. Slash

「Mr. Slash 的系統性人生」,創立於 2024年,由 Mr. Slash 本人及專業編輯團隊經營的財經內容平台。

我們的宗旨是透過投資、財經、自動化與新興科技等領域的深入解說與應用,幫助讀者打造穩定的被動收入系統。內容涵蓋加密貨幣、股息資產、量化工具、平台分潤等實用策略,協助你用更聰明的方法配置資金、累積資產,走在財務自由的路上,少走冤枉路。

若為商業合作邀稿,將會清楚標註「不代表本站立場」。

商業合作

如果您有任何關於我們團隊或網站內容的疑問或建議,歡迎您前往IG 私訊 @slash.Capital聯繫我們,謝謝!

發表迴響

Trending

探索更多來自 Mr. Slash|系統流人生 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Join Mr. Slash