ByteDance 又不聲不響開了一個 repo。沒有發布會、沒有 CEO 出來敲鑼、沒有 keynote,但 GitHub 星數已經悄悄堆到 33,700。
它叫 UI-TARS-desktop。一句話講完它在幹嘛:你裝在自己電腦上,AI 直接「看」你的螢幕,自己動滑鼠、自己敲鍵盤,幫你跑完整套桌面操作。
以前你跟 AI 對話,AI 只能跟你打字。現在 AI 不只回你話,它還能爬進你的電腦,自己打開瀏覽器、自己抓資料、自己貼進 Excel。
截至 2026 年 5 月,這個項目已經悄悄爬到 GitHub 上 AI agent 類別前段班,本週日榜還在繼續加星。OpenAI Operator 跟 Anthropic Computer Use 兩家收費的 closed source 對手剛把方向定好,ByteDance 直接把 Apache 2.0 開源版甩出來,免費商用、可本地部署。
這篇我會講三件事:UI-TARS-desktop 到底是什麼、跟 OpenAI Operator / Anthropic Computer Use 比起來差多少、以及一個普通人現在該不該裝它。
不是聊天框,是「電腦遙控器」
過去兩年我們用 AI 的方式很單調:開 ChatGPT、輸入 prompt、看回答、複製貼上。AI 在一個方框裡,我們在方框外。
UI-TARS 想做的是把那個方框拆掉。它的核心是 ByteDance 自己訓練的 Seed-1.5-VL / 1.6 系列視覺語言模型(VLM),這個模型最重要的能力是「看螢幕」——拿到一張你電腦螢幕的截圖,它能認出哪個是按鈕、哪個是輸入框、哪個是關閉鍵。
看到之後呢?它會根據你下達的自然語言指令,決定接下來該點哪裡、輸入什麼。然後實際發出滑鼠和鍵盤指令。整個迴圈是這樣的:
- 你用人話下指令:「幫我把 Notion 裡『本週待辦』那頁的內容截圖貼到 Slack 工作頻道」
- AI 截圖你目前的螢幕
- VLM 模型分析畫面,鎖定 Notion 圖示在哪
- 發出點擊指令
- 等畫面跳出 Notion 後再截一張
- 循環直到任務完成
聽起來簡單,做出來很難。難的點是模型要「看得懂」混亂的真實電腦畫面,而且不能把錯按鈕當成對的按鈕——你不會希望 AI 幫你刪檔,結果它去按了「全選清空垃圾桶」。
UI-TARS 跟 Anthropic Computer Use 的單純視覺路線、Playwright MCP 的純 DOM 操作路線都不同。它走的是 hybrid 路線:能看得到的就用視覺,能用 DOM 抓的就用 DOM,搭配 MCP 原生架構。
這條路線在 benchmark 數字上有用:UI-TARS-2 拿到 OSWorld 47.5%、AndroidWorld 73.3%、WindowsAgentArena 50.6%。
跟 OpenAI Operator、Anthropic Computer Use 怎麼比?
2025 年 1 月 OpenAI 推 Operator、Anthropic 在 2024 年 10 月就先放 Computer Use。三家都在做同一件事——讓 AI 操作電腦——但路線、價格、開放度差很多。直接上表:
| 項目 | ByteDance UI-TARS-desktop | OpenAI Operator | Anthropic Computer Use |
|---|---|---|---|
| 授權 | Apache 2.0(免費、商用、本地跑) | 閉源 | 閉源(API) |
| 價格 | 免費(自付 GPU 成本) | 每月 $200(ChatGPT Pro) | 按 API token 計費 |
| 地區限制 | 無 | 限美國 | 全球 API 可用 |
| 操作對象 | 本地電腦 + 瀏覽器 | 雲端虛擬瀏覽器 | 本地電腦 + 瀏覽器 |
| OSWorld 分數 | 47.5%(UI-TARS-2) | 38.1% | 未公開單獨分數 |
| 適合誰 | 開發者、企業內部部署 | 美國一般用戶 | 企業、開發者 |
把這張表翻成白話:
OpenAI Operator 的問題是貴跟卡。一個月 200 美元,而且只能在美國用。它跑在雲端虛擬瀏覽器裡,你看不到、也碰不到那台機器。對普通人沒什麼吸引力。
Anthropic Computer Use 的問題是要寫 code 接 API。它是給開發者用的工具,不是給你「裝完就用」的 app。每跑一次都在燒 token 錢。
UI-TARS-desktop 的算盤是:免費裝、本地跑、Apache 2.0 你愛改隨便改。對 ByteDance 的策略意義很清楚——OpenAI 跟 Anthropic 在收費版本還在摸索定價的時候,先用開源把整個 GUI agent 賽道的標準佔下來。一年後不管哪家收費,ByteDance 在開發者生態裡的滲透率已經跑在前面。
普通人現在裝它,能幹嘛?
講真話:現在裝 UI-TARS-desktop 不是「換掉你的 ChatGPT」,是「多一個玩具來測試 AI 操作電腦到底成熟到什麼程度」。
適合裝來玩的場景:
- 重複性桌面操作:批量改檔名、整理資料夾、批量複製貼上、跨 app 搬資料
- 網頁資料抓取:開瀏覽器 → 登入 → 抓表格 → 存成 CSV,這條鏈用 UI-TARS 跑得起來
- 桌面截圖標註:自動截圖、自動標重點、自動存進資料夾
- 跨應用程式工作流:例如「把 Gmail 第一封信的內容貼到 Notion 然後在 Slack 通知 Tony」
不適合的場景:
- 動財產類操作(轉帳、下單、買幣)——AI agent 還沒成熟到你敢放手
- 需要嚴格隱私的工作(醫療紀錄、客戶名單)——本地跑沒問題,但要看你接什麼模型
- 螢幕畫面非常複雜或自定義介面太多——VLM 還是會迷���
三步驟把它跑起來
UI-TARS 的兄弟項目 Agent TARS CLI 是最快的上手途徑。前提你電腦要有 Node.js 22 以上版本。
- 確認 Node.js 版本:
node -v,低於 22 就先去 nodejs.org 升版 - 直接跑:
npx @agent-tars/cli@latest,第一次會自動拉檔 - 跑起來後,照畫面引導接你的模型——可以接 Hugging Face 上的 UI-TARS 系列,也可以接火山引擎的 Ark 服務
第一次跑建議先給簡單任務:「打開 Chrome,搜尋『slash-invest.com』,把第一條結果複製到剪貼簿。」讓你看到整個感知—決策—執行的迴圈是怎麼跑的。看完你就懂為什麼這條路線比純 API 更接近真實的「AI 員工」。
v0.2.0 之後還多了 Remote Computer Operator 跟 Remote Browser Operator——意思是你可以一台電腦上跑 agent、操控另一台電腦或瀏覽器。對開發者來說,這條路通往「用 AI 跑一整個遠端工作站」。
Mr. Slash 的觀點:這代表什麼
三個判斷給你帶走:
第一,GUI agent 賽道進入「免費 vs 收費」分化期。OpenAI Operator 一個月 200 美元、Anthropic Computer Use 按 token 計費,現在 ByteDance 用 Apache 2.0 把同等級能力丟出來。再往後幾個月,會看到更多開發者把 UI-TARS 當作底座,做出垂直版本(給律師用的、給會計用的、給交易員用的)。閉源那兩家要嘛壱價,要嘛把錢花在更高階的場景(複雜推理、長程任務)。
第二,VLM「會看螢幕」的能力,已經是 AI agent 的基礎建設。不是「未來會發生」,是「已經發生」。OSWorld 從 2024 年初的 12% 漲到 2026 年 5 月的 47.5%,這條曲線比 LLM 在數學推理上的進步還陡。看得懂螢幕,意味著 AI 可以用你原本就在用的任何軟體——不需要那個軟體提供 API。
第三,對普通人最大的影響是:哪些工作會被「螢幕級自動化」吃掉?之前的 RPA(Robotic Process Automation)要程式設計師寫腳本,現在是自然語言下指令就能跑。客服、行政、資料錄入、初級分析師這幾個職位,會比你想像中更快被擠壓。AI 不需要做到 100%,做到 60% 同一份工作就只剩半條命。
建議現在就動手裝一個跑跑看。不是為了用它做正事,是為了親眼看一次「AI 自己點滑鼠」是什麼感覺。看完之後再回頭想你自己的工作有哪些環節會被吃掉,你會比 90% 的人更早做出調整。
下一步打算寫一篇實測,用 UI-TARS-desktop 跑「自動化加密貨幣盤面截圖+貼到 Telegram 群」這條工作流,看看當前版本到底穩不穩。想看的話 follow Mr. Slash 的 X 帳號等更新。
免責聲明:本文僅為 AI 工具評測與行業觀察,不構成投資建議。文中提及的工具截至 2026 年 5 月 14 日資訊;GitHub 星數、模型 benchmark 數據會隨時間變動。下載及使用開源工具請評估你的本機環境與隱私需求,作者及網站對使用後果不負責任。

發表迴響