以前 AI 只會打字，現在它自己點滑鼠：ByteDance 悄悄開源 UI-TARS-desktop

14 5 月, 2026

14 至 21 分鐘

ByteDance 又不聲不響開了一個 repo。沒有發布會、沒有 CEO 出來敲鑼、沒有 keynote，但 GitHub 星數已經悄悄堆到 33,700。

它叫 UI-TARS-desktop。一句話講完它在幹嘛：你裝在自己電腦上，AI 直接「看」你的螢幕，自己動滑鼠、自己敲鍵盤，幫你跑完整套桌面操作。

以前你跟 AI 對話，AI 只能跟你打字。現在 AI 不只回你話，它還能爬進你的電腦，自己打開瀏覽器、自己抓資料、自己貼進 Excel。

截至 2026 年 5 月，這個項目已經悄悄爬到 GitHub 上 AI agent 類別前段班，本週日榜還在繼續加星。OpenAI Operator 跟 Anthropic Computer Use 兩家收費的 closed source 對手剛把方向定好，ByteDance 直接把 Apache 2.0 開源版甩出來，免費商用、可本地部署。

這篇我會講三件事：UI-TARS-desktop 到底是什麼、跟 OpenAI Operator / Anthropic Computer Use 比起來差多少、以及一個普通人現在該不該裝它。

不是聊天框，是「電腦遙控器」

過去兩年我們用 AI 的方式很單調：開 ChatGPT、輸入 prompt、看回答、複製貼上。AI 在一個方框裡，我們在方框外。

UI-TARS 想做的是把那個方框拆掉。它的核心是 ByteDance 自己訓練的 Seed-1.5-VL / 1.6 系列視覺語言模型（VLM），這個模型最重要的能力是「看螢幕」——拿到一張你電腦螢幕的截圖，它能認出哪個是按鈕、哪個是輸入框、哪個是關閉鍵。

看到之後呢？它會根據你下達的自然語言指令，決定接下來該點哪裡、輸入什麼。然後實際發出滑鼠和鍵盤指令。整個迴圈是這樣的：

你用人話下指令：「幫我把 Notion 裡『本週待辦』那頁的內容截圖貼到 Slack 工作頻道」
AI 截圖你目前的螢幕
VLM 模型分析畫面，鎖定 Notion 圖示在哪
發出點擊指令
等畫面跳出 Notion 後再截一張
循環直到任務完成

聽起來簡單，做出來很難。難的點是模型要「看得懂」混亂的真實電腦畫面，而且不能把錯按鈕當成對的按鈕——你不會希望 AI 幫你刪檔，結果它去按了「全選清空垃圾桶」。

UI-TARS 跟 Anthropic Computer Use 的單純視覺路線、Playwright MCP 的純 DOM 操作路線都不同。它走的是 hybrid 路線：能看得到的就用視覺，能用 DOM 抓的就用 DOM，搭配 MCP 原生架構。

這條路線在 benchmark 數字上有用：UI-TARS-2 拿到 OSWorld 47.5%、AndroidWorld 73.3%、WindowsAgentArena 50.6%。

跟 OpenAI Operator、Anthropic Computer Use 怎麼比？

2025 年 1 月 OpenAI 推 Operator、Anthropic 在 2024 年 10 月就先放 Computer Use。三家都在做同一件事——讓 AI 操作電腦——但路線、價格、開放度差很多。直接上表：

項目	ByteDance UI-TARS-desktop	OpenAI Operator	Anthropic Computer Use
授權	Apache 2.0（免費、商用、本地跑）	閉源	閉源（API）
價格	免費（自付 GPU 成本）	每月 $200（ChatGPT Pro）	按 API token 計費
地區限制	無	限美國	全球 API 可用
操作對象	本地電腦 + 瀏覽器	雲端虛擬瀏覽器	本地電腦 + 瀏覽器
OSWorld 分數	47.5%（UI-TARS-2）	38.1%	未公開單獨分數
適合誰	開發者、企業內部部署	美國一般用戶	企業、開發者

把這張表翻成白話：

OpenAI Operator 的問題是貴跟卡。一個月 200 美元，而且只能在美國用。它跑在雲端虛擬瀏覽器裡，你看不到、也碰不到那台機器。對普通人沒什麼吸引力。

Anthropic Computer Use 的問題是要寫 code 接 API。它是給開發者用的工具，不是給你「裝完就用」的 app。每跑一次都在燒 token 錢。

UI-TARS-desktop 的算盤是：免費裝、本地跑、Apache 2.0 你愛改隨便改。對 ByteDance 的策略意義很清楚——OpenAI 跟 Anthropic 在收費版本還在摸索定價的時候，先用開源把整個 GUI agent 賽道的標準佔下來。一年後不管哪家收費，ByteDance 在開發者生態裡的滲透率已經跑在前面。

普通人現在裝它，能幹嘛？

講真話：現在裝 UI-TARS-desktop 不是「換掉你的 ChatGPT」，是「多一個玩具來測試 AI 操作電腦到底成熟到什麼程度」。

適合裝來玩的場景：

重複性桌面操作：批量改檔名、整理資料夾、批量複製貼上、跨 app 搬資料
網頁資料抓取：開瀏覽器 → 登入 → 抓表格 → 存成 CSV，這條鏈用 UI-TARS 跑得起來
桌面截圖標註：自動截圖、自動標重點、自動存進資料夾
跨應用程式工作流：例如「把 Gmail 第一封信的內容貼到 Notion 然後在 Slack 通知 Tony」

不適合的場景：

動財產類操作（轉帳、下單、買幣）——AI agent 還沒成熟到你敢放手
需要嚴格隱私的工作（醫療紀錄、客戶名單）——本地跑沒問題，但要看你接什麼模型
螢幕畫面非常複雜或自定義介面太多——VLM 還是會迷��

三步驟把它跑起來

UI-TARS 的兄弟項目 Agent TARS CLI 是最快的上手途徑。前提你電腦要有 Node.js 22 以上版本。

確認 Node.js 版本：node -v，低於 22 就先去 nodejs.org 升版
直接跑：npx @agent-tars/cli@latest，第一次會自動拉檔
跑起來後，照畫面引導接你的模型——可以接 Hugging Face 上的 UI-TARS 系列，也可以接火山引擎的 Ark 服務

第一次跑建議先給簡單任務：「打開 Chrome，搜尋『slash-invest.com』，把第一條結果複製到剪貼簿。」讓你看到整個感知—決策—執行的迴圈是怎麼跑的。看完你就懂為什麼這條路線比純 API 更接近真實的「AI 員工」。

v0.2.0 之後還多了 Remote Computer Operator 跟 Remote Browser Operator——意思是你可以一台電腦上跑 agent、操控另一台電腦或瀏覽器。對開發者來說，這條路通往「用 AI 跑一整個遠端工作站」。

Mr. Slash 的觀點：這代表什麼

三個判斷給你帶走：

第一，GUI agent 賽道進入「免費 vs 收費」分化期。OpenAI Operator 一個月 200 美元、Anthropic Computer Use 按 token 計費，現在 ByteDance 用 Apache 2.0 把同等級能力丟出來。再往後幾個月，會看到更多開發者把 UI-TARS 當作底座，做出垂直版本（給律師用的、給會計用的、給交易員用的）。閉源那兩家要嘛壱價，要嘛把錢花在更高階的場景（複雜推理、長程任務）。

第二，VLM「會看螢幕」的能力，已經是 AI agent 的基礎建設。不是「未來會發生」，是「已經發生」。OSWorld 從 2024 年初的 12% 漲到 2026 年 5 月的 47.5%，這條曲線比 LLM 在數學推理上的進步還陡。看得懂螢幕，意味著 AI 可以用你原本就在用的任何軟體——不需要那個軟體提供 API。

第三，對普通人最大的影響是：哪些工作會被「螢幕級自動化」吃掉？之前的 RPA（Robotic Process Automation）要程式設計師寫腳本，現在是自然語言下指令就能跑。客服、行政、資料錄入、初級分析師這幾個職位，會比你想像中更快被擠壓。AI 不需要做到 100%，做到 60% 同一份工作就只剩半條命。

建議現在就動手裝一個跑跑看。不是為了用它做正事，是為了親眼看一次「AI 自己點滑鼠」是什麼感覺。看完之後再回頭想你自己的工作有哪些環節會被吃掉，你會比 90% 的人更早做出調整。

下一步打算寫一篇實測，用 UI-TARS-desktop 跑「自動化加密貨幣盤面截圖+貼到 Telegram 群」這條工作流，看看當前版本到底穩不穩。想看的話 follow Mr. Slash 的 X 帳號等更新。

免責聲明：本文僅為 AI 工具評測與行業觀察，不構成投資建議。文中提及的工具截至 2026 年 5 月 14 日資訊；GitHub 星數、模型 benchmark 數據會隨時間變動。下載及使用開源工具請評估你的本機環境與隱私需求，作者及網站對使用後果不負責任。

加入 Mr. Slash 免費社群

第一時間收到交易所獨家優惠、AI 工具推薦、和市場分析更新

立即加入 Telegram 社群

關於Ｍr. Slash

「Mr. Slash 的系統性人生」，創立於 2024年，由 Mr. Slash 本人及專業編輯團隊經營的財經內容平台。

我們的宗旨是透過投資、財經、自動化與新興科技等領域的深入解說與應用，幫助讀者打造穩定的被動收入系統。內容涵蓋加密貨幣、股息資產、量化工具、平台分潤等實用策略，協助你用更聰明的方法配置資金、累積資產，走在財務自由的路上，少走冤枉路。

若為商業合作邀稿，將會清楚標註「不代表本站立場」。

商業合作

如果您有任何關於我們團隊或網站內容的疑問或建議，歡迎您前往IG 私訊 @slash.Capital聯繫我們，謝謝！

以前 AI 只會打字，現在它自己點滑鼠：ByteDance 悄悄開源 UI-TARS-desktop

不是聊天框，是「電腦遙控器」

跟 OpenAI Operator、Anthropic Computer Use 怎麼比？

普通人現在裝它，能幹嘛？

三步驟把它跑起來

Mr. Slash 的觀點：這代表什麼

請按讚：

關於Ｍr. Slash

商業合作

發表迴響取消回覆

被 AI 裁員的下一波是你：3 個週末 + 1000 美元的反殺路線

OKX Card 完整教學｜零手續費刷卡、USDG 回饋最高 5%、活存 10% APY【2026】

2026 最新｜虛擬貨幣是什麼？新手零基礎入門完整指南

2026 最新｜虛擬貨幣交易所排名推薦｜五大交易所完整比較