先講一個畫面。你在公司開會,手機震了一下。打開一看,是你掛在伺服器上的 AI agent 傳訊息:剛才交代它整理的那份報表跑完了,要不要它順手發出去?你回了一句「發吧」,鎖屏,繼續開會。整個過程,你一行終端機指令都沒打。
這就是 Hermes WebUI 想做的事。它是一個給 Hermes Agent(Nous Research 今年初開源的那隻「會自己長大」的自主 agent)套上的網頁介面,讓你不必再死守終端機,用瀏覽器、甚至用手機就能指揮它幹活。截至 2026 年 6 月,這個項目還很年輕,但方向抓得很準——它解決的是一個所有玩 agent 的人遲早會撞到的痛點:終端機綁死了你的位置。
先搞清楚:Hermes Agent 是什麼,為什麼需要它一個介面
Hermes Agent 不是 ChatGPT 那種你問一句它答一句的聊天機器人。它是一隻住在你自己伺服器上的常駐 agent:有記憶、能跑工具、能執行 shell 指令、能搜網頁,而且越用越熟你的習慣。Nous Research 對它的定位是「會跟著你成長的 agent」,平常你透過終端機的 TUI(文字介面)跟它對話,或是掛到 Telegram、Discord、Slack、WhatsApp、Signal 這些通訊軟體上去用。
聽起來很完整,那問題在哪?問題在於,TUI 再好用也是綁在終端機裡的。你想看它剛才動過哪些檔案,要自己 cd 進去翻;你想回顧三天前那段對話,得在歷史記錄裡撈;你人在外面只帶著手機,那基本上就跟它斷線了。掛通訊軟體可以救一部分,但你沒辦法在 Telegram 裡好好瀏覽工作區的檔案樹、預覽一張圖、編輯一份 MEMORY.md。
Hermes WebUI 就是來補這一塊的。一句話:把終端機裡能做的事,原封不動搬到瀏覽器,再加上終端機做不到的視覺化。
長得像 Claude,三欄式介面一眼就會用
打開介面,老用戶會有種熟悉感——它刻意做成 Claude 那種三欄式佈局。左邊是工作階段(session)列表和各種面板入口,中間是聊天區,右邊是工作區的檔案瀏覽器。深色主題,沒有花俏的東西。
真正值得講的是它的技術選擇:沒有打包工具、沒有前端框架、沒有 build 步驟,整個前端就是純 Python 後端加原生 JavaScript。這在 2026 年聽起來有點反潮流,但對自架工具來說反而是優點——你不用裝一堆 npm 依賴,clone 下來跑一個指令就起來了,出問題也好查。
它最大的賣點是手機體驗。介面是響應式的,在手機上會自動變成漢堡選單收側欄、把上方分頁塞進抽屜、按鈕全部做成 44px 的觸控友善尺寸、聊天區拉到滿版高度。作者直接說它「適合當成每天用的隨身 agent 介面」。這句話是重點——它不是「能在手機上勉強看」,而是「設計上就準備好讓你天天用手機指揮 agent」。
核心功能拆解:它到底能幹嘛
功能清單不短,我挑幾個對實際使用有感的講。
聊天與 agent 操作。回應是 SSE 串流的,字一個個吐出來,不用等它整段想完。支援多家模型供應商——OpenAI、Anthropic、Google、DeepSeek、Nous Portal、OpenRouter,下拉選單會根據你配好的 API key 自動列出可用模型。一個訊息還在跑的時候你可以再丟下一個,它會自動排隊;過去任何一條你發過的訊息都能就地編輯後重新生成;最後一條 AI 回應不滿意,一鍵重試。
對 agent 來說最關鍵的兩個細節:每次工具呼叫都會有一張工具卡片,列出工具名稱、參數和結果片段,讓你看得到它每一步在幹嘛;而當它要跑危險的 shell 指令時,會跳出授權卡,讓你選「允許這次/本次工作階段/永遠允許/拒絕」。這在你用手機遠端操控一隻有 shell 權限的 agent 時,是不能少的安全閥。它甚至能內嵌渲染 Mermaid 圖(流程圖、時序圖、甘特圖)。
工作階段管理。session 可以建立、改名、複製、刪除、按標題和內容搜尋,還能釘選、封存、用 #tag 加上彩色標籤點擊篩選,側欄自動分成今天/昨天/更早。每段對話都能匯出成 Markdown 或 JSON,也能匯入。重點是這些狀態都存在 repo 之外(預設在 ~/.hermes/webui-mvp/),重新整理頁面、SSH 通道斷線重連都不會丟。
工作區檔案瀏覽器。右邊那欄可以瀏覽整個目錄樹、預覽文字/程式碼/Markdown(直接渲染)/圖片,還能直接編輯、新增、刪除、改名檔案和建資料夾,程式碼預覽有語法高亮。這是終端機 TUI 給不了的東西——你終於能「看見」agent 的工作區,而不是靠想像。
幾個專門面板。Tasks 面板管 cron 排程任務,能建立、編輯、執行、暫停、刪除,跑完還會跳完成提示;Skills 面板列出所有技能、能搜尋預覽和增刪;Memory 面板讓你就地編輯 agent 的 MEMORY.md 和 USER.md;Todos 顯示當前 session 的即時待辦;Spaces 讓你管理多個工作區、從頂欄快速切換。
怎麼裝:基本上就一個指令
前提是你得先裝好並設定好 Hermes Agent 本體(這個 WebUI 是寄生在它上面的,不能單獨跑)。裝好之後:
git clone https://github.com/nesquena/hermes-webui.git hermes-webui
cd hermes-webui
./start.sh
就這樣。start.sh 會自己去找你的 Hermes agent 目錄、找一個有對的依賴的 Python 環境、啟動伺服器、印出網址。如果你是跑在 VPS 或遠端伺服器上,它還會偵測到你在 SSH,順手把 SSH 通道指令印給你。
這裡有個安全設計值得講:伺服器預設只綁 127.0.0.1(本機回環),不對外開放。你要從自己電腦或手機連,是透過 SSH 通道把遠端的 port 轉到本地:
ssh -N -L 8787:127.0.0.1:8787 user@your.server.com
然後在瀏覽器開 http://localhost:8787 就好。這種「預設不開放、靠 SSH 通道進來」的做法,比起隨便把介面暴露在公網上安全得多。對一隻能跑 shell 指令的 agent 來說,這個預設值得給好評。
跟其他 Hermes 介面比,怎麼選
Hermes Agent 的生態現在不只一個介面選擇。簡單列一下差別:
| 介面方案 | 定位 | 適合誰 |
|---|---|---|
| 原生 TUI | 終端機文字介面,官方內建 | 整天泡在終端機、只要純鍵盤操作的人 |
| 通訊軟體閘道 | 掛 Telegram/Discord/Slack 等 | 只想偶爾丟個指令、不需要看檔案的人 |
| Hermes WebUI(本文) | 輕量自架網頁,純 Python+原生 JS,主打手機 | 想要視覺化+手機隨身用、不想裝一堆前端依賴的人 |
Hermes WebUI 的差異化很清楚:它不追求最華麗,而是追求最輕、最好裝、手機上最順。如果你的需求是「人在外面也能隨時看一眼 agent 在幹嘛、順手批准或叫停」,它就是目前最對味的選擇。
優缺點,誠實講
優點:安裝門檻低到一個指令;純 Python+原生 JS 沒有依賴地獄;手機體驗是認真設計過的;工具卡片和危險指令授權卡讓遠端操控有安全感;session、檔案、記憶全部視覺化,補足了 TUI 看不見的盲區。
缺點和要注意的地方:第一,它完全依賴 Hermes Agent 本體,你得先把 Nous Research 那套裝起來、配好模型 key,這對沒碰過自架 agent 的新手來說才是真正的門檻,WebUI 只是讓裝好之後更好用。第二,這是個社群維護的非官方項目,還很新(目前還在快速迭代的階段),功能在加、也可能有坑,不建議拿去扛生產環境的關鍵任務。第三,SSH 通道雖然安全,但對完全沒碰過命令列的人還是有學習成本。
它不是要取代你的終端機,而是讓你在離開終端機之後,還能繼續指揮你的 agent。
結論:誰該現在就裝
如果你已經在用 Hermes Agent,那 Hermes WebUI 基本上是免費升級,沒理由不裝——多一個瀏覽器入口、多一個手機入口,成本只是 clone 一個 repo 跑一個指令。如果你還沒碰過 Hermes Agent,那這篇可以當成一個訊號:自主 agent 正在從「工程師的終端機玩具」變成「你口袋裡隨時待命的數位助手」。介面這一層越來越成熟,代表這類工具離一般人能用,又近了一步。
2026 年的 agent 競賽,比的早就不只是模型多聰明,而是你能多方便地用上它。Hermes WebUI 賭的就是這一點——把「指揮 AI」這件事,從電腦桌前搬到你的手機裡。
本文資訊截至 2026 年 6 月,AI 開源工具更新極快,實際功能與安裝方式請以 GitHub 專案最新說明為準。本文僅為技術介紹與心得分享,不構成任何投資或使用建議。
發表迴響