有人把 Claude Code 的一次 session 帳單,從 $42.21 砍到 $6.06。方法不是換模型,也不是少寫程式。是把送給 AI 的那一大坨文字,「畫成一張圖片」再送出去。
聽起來像旁門左道。但它有 benchmark、有開源程式碼、有一堆媒體在報。這個工具叫 pxpipe,MIT 授權,作者是 Steven Chong。它鑽的是一個很少人注意到的規則:Anthropic 對圖片收費,是按「像素大小」算的,不是按裡面有多少字。
一句話結論:pxpipe 是一個本地 proxy,把 Claude Code 臃腫的系統提示、工具說明、舊對話渲染成高密度 PNG 再送出,靠「圖片按像素計價」把 input token 帳單砍約 59–70%。代價是有損、稍慢,且只在密集內容(程式碼、JSON、log)上划算;重度用 Claude Code / Fable 5 的人值得裝來試,純聊天記帳的人不用。
最後更新:2026 年 7 月 5 日。pxpipe 開源免費(MIT),省下的比例會隨官方定價浮動,以下數字以作者公開的 benchmark 與官網為準。
先看重點:pxpipe 跟其他省 token 的方法差在哪?
省 token 這件事,最近突然多了好幾條路。我把三個最常被拿來比的放在一起,你可以一眼看完再決定要不要往下讀。
| 方法 | 怎麼省 | 省多少 | 誰適合 | 風險 |
|---|---|---|---|---|
| pxpipe(本篇) | 把臃腫 context 渲染成 PNG,用像素計價繞開字數計價 | 端到端帳單 約 59–70% | 重度 Claude Code / Fable 5、context 塞很滿的人 | 有損、稍慢,逐字精確值可能讀錯 |
| caveman | 把 prompt 改寫成「穴居人語法」,砍掉冠詞連接詞等虛詞 | 視內容而定,通常一到三成 | 喜歡手動控制 prompt 的人 | 語氣變生硬,複雜語意可能失真 |
| 官方 prompt caching | 快取重複的前綴,重複讀取只收約 1 折 | 看重複率,可觀但要湊快取條件 | 幾乎所有人,最安全 | 幾乎沒有,但省的是「重複」不是「長度」 |
簡單講:prompt caching 最安全,pxpipe 最激進,caveman 介於中間。這篇專講最激進的那個,因為它省得最多,坑也最深,值得花時間搞懂。
pxpipe 到底是什麼?
pxpipe 是一個跑在你自己電腦上的 proxy(代理)。你把 Claude Code 指向它,它會在每個請求離開你電腦之前,把裡面「又大又靜態」的部分(系統提示、工具說明文件、比較舊的對話歷史)重新畫成一張排得密密麻麻的 PNG 圖片,再轉發給 Anthropic。你最近幾輪的對話、你正在打的字、還有模型回你的內容,全部維持純文字不動。
它壓縮的只有「請求」(你送出去的),永遠不碰「回應」(模型回來的)。所以你的體驗跟平常一樣:照樣即時串流、照樣看得到回覆,只是帳單變薄了。作者還做了一個儀表板(跑起來在 http://127.0.0.1:47821/),可以即時看省了多少 token、每一次「文字變圖片」的對照、一個緊急關掉的開關,還有目前對哪些模型生效的標籤。
有個小細節我覺得很有戲:pxpipe 的 README 讀起來很像 AI 寫的。作者大方承認,因為它就是 AI 寫的。整個 repo 的程式碼跟文件,大多是 Opus / Fable agent 一邊掛著 pxpipe、一邊讀自己被壓成圖片的歷史,一邊寫出來的。工具拿自己開刀,這種自信我給過。
為什麼「把文字變成圖片」反而更省 token?
關鍵在計價方式的落差。在 Anthropic 的價目表裡,一段文字的成本跟它有多少字元成正比;但一張圖片的成本,是看它的像素尺寸,跟裡面塞了多少字沒關係。
這就出現一個縫可以鑽。作者實測:大約 48,000 字的系統提示加工具說明,當成文字送,要花大約 25,000 個 token;把同一批內容擠進一張高密度 PNG,只要大約 2,700 個 image token。密集內容(程式碼、JSON、指令輸出)每個 image token 大概能塞 3.1 個字元,而純文字每個 token 才裝約 1 個字元。差距就是這樣拉開的。
一張 1928×1928 的圖大約值 4,761 個 vision token,卻能裝下約 92,000 個字元。換算下來,只有當內容「稀疏」到每個 token 超過約 19 個字元,純文字才划算——而真實的 Claude Code 流量大概是每個 token 1.91 個字元(作者取樣 391 筆)。所以絕大多數時候,圖片贏。
順帶一提,這招不算全新發明。DeepSeek 之前做過一個 OCR 系統,把文件當成圖片處理,論文宣稱能壓縮到十分之一還保留 97% 的資訊。pxpipe 只是把同樣的直覺,接到了「省 API 帳單」這個很現實的痛點上。而且時機很巧,Anthropic 前幾天才說,因為 Fable 5 系模型「想要更短的系統提示」,主動把 Claude Code 的 system prompt 砍了 80%。從官方到社群,大家其實都在跟同一個敵人打架:太長、太貴的 context。
真的能省 70% 嗎?實測數字說話
先講最漂亮的那個 demo:一次 Fable 5 的 session,普通跑法在 context 塞到 96% 滿時花了 $42.21;開 pxpipe 跑同一件事,最後停在 $6.06,而且還剩很多空間(73.5k / 1M)。這就是那張到處被轉的「$42 變 $6」截圖的來源。
但單一 demo 不算數,作者自己也這樣說。他給的是「整包帳單」的口徑,包含那些 pxpipe 判斷不該壓、就放它過去的小請求,還有全部的快取讀寫跟輸出 token:
- 一份 13,709 筆請求的快照,端到端省了 59%($100 變約 $41)。
- 另一段 8,904 筆壓縮請求的紀錄,省了約 70%。
- 只算「有被壓縮的請求」會更高(約 72–74%),但作者刻意不拿這個當標題數字,怕誤導。
準確度呢?作者用「模型不可能背過的隨機新數字」來測,避免它靠記憶蒙混。Fable 5 在這種新算術題上,文字跟圖片都是 100% 正確,token 少 38%;記憶回想(決策、數值、路徑、名字、否定,還故意加干擾)98 題全對;狀態追蹤(一個值改三次問你最後是多少)18 題全對;「從沒講過的事實」捏造率是 0/16。這幾個結果其實蠻穩的。真正拿來寫程式的測試,SWE-bench Lite 兩邊都 10/10、請求大小少 65%;SWE-bench Pro 開 pxpipe 14/19、不開 15/19,差一題在重跑時又補回來,比較像 run-to-run 的隨機波動。
pxpipe 的代價是什麼?(這段別跳過)
會省的東西通常都有代價,pxpipe 也一樣。作者把缺點寫得很白,我照抄不美化:
- 它是有損的。逐字精確的 12 字元 hex 字串,在圖片裡讀出來 Fable 5 是 13/15、Opus 是 0/15。更麻煩的是讀錯時它不會報錯,而是「一本正經地編一個」。所以像 ID、hash、密鑰這種必須一字不差的東西,要留成文字。作者也有逃生門:把逐字工作丟給不在白名單的 subagent(例如 sonnet),那條路會維持純文字。
- 它比較慢。圖片要先編碼再送出,模型也要多跑一次 vision encoder 才讀得到,延遲會增加。省錢換速度,你要自己權衡。
- 它挑內容。密集內容(每個 token 約 1 個字元)才賺得到;稀疏散文(每個 token 約 3.5 個字元)反而倒賠。pxpipe 內建一個「划不划算」的閘門,只在數學上贏的地方才動手。
- 它挑模型。預設只對 Claude Fable 5 和 GPT-5.6 生效。Opus 4.7 / 4.8 會誤讀約 7% 的圖片,GPT 5.5 讀圖片版 context 也變差,所以這兩個預設關閉,要自己在儀表板或設定裡手動開。設
PXPIPE_MODELS=off就整個停用,其餘一律原樣通過。
作者還記了一次真實翻車:用了幾週,某次模型從被壓成圖片的聊天歷史裡「回憶」某個人的名字,很有自信地講錯了。沒報錯,就只是一個看起來很合理的錯名字。這正是它的已知弱點:圖片裡的精確字串不是 byte-safe。寫程式的場景比較能容忍,因為 agent 動手改檔前會再讀一次原檔;純靠記憶的聊天就沒這道保險。
你該不該裝 pxpipe?30 秒自測
與其我幫你決定,不如你自己點兩下。下面這個小工具照你的情況給建議:
| 你的情況 | 建議 |
|---|---|
| 主力 Fable 5 / GPT-5.6,又狂塞 context、帳單很痛 | ✅ 完美對象,帳單有機會直接砍一半以上,先裝來試 |
| Opus 4.8 為主 | 🟡 值得裝但別全開,Opus 誤讀約 7%、預設就關;只在 Fable 5 工作上開 |
| 常要一字不差的 ID / hash / 密鑰 | ⚠️ 可裝但把逐字工作留成文字或走純文字 subagent,別讓機敏值進圖片 |
| 輕度用、主要聊天問答、帳單沒感覺 | 🅾️ 不用裝,省不到什麼還多一層延遲;用官方 prompt caching 就夠 |
不會架環境也能用嗎?30 秒上手
會。你不用改 Claude Code、不用改自己的程式碼,只要在中間插一層 proxy。指令就兩行:
- 啟動 proxy:開一個終端機,輸入
npx pxpipe-proxy。它會在 127.0.0.1:47821 起一個本地服務。 - 把 Claude Code 指過去:輸入
ANTHROPIC_BASE_URL=http://127.0.0.1:47821 claude,Claude Code 就會透過 pxpipe 走。 - 打開儀表板看成效:瀏覽器開 http://127.0.0.1:47821/,即時看省了多少 token、每次「文字變圖片」的對照,還有一個一鍵停用的 kill switch。
覺得不對勁隨時關掉,關掉就回到原本純文字的跑法,不會弄壞你的環境。如果你是工程師想更細地控制,pxpipe 也能當 library 用(renderTextToPngs、transformAnthropicMessages),純 JS runtime,Node 跟邊緣環境都能跑。
pxpipe、caveman、prompt caching,我到底該用哪個?
看你是哪種人。這是我的分法:
- 怕麻煩、只想安全省一點的人 → 先用官方 prompt caching。零風險,設定好前綴就有折扣,該是每個人的預設。
- 重度 Claude Code、帳單月月破表的人 → pxpipe。省最多,但你要接受有損跟稍慢,並且守住「精確字串留成文字」這條線。
- 喜歡自己捏 prompt、不想多裝東西的人 → caveman。把句子改成穴居人語法,手動、可控、無黑盒。
- 要幫 agent 省重複讀同一份程式碼的人 → 走「記憶」路線。這類工具的思路是讓 agent 記住程式碼、不用每次重讀,跟 pxpipe「壓縮這次請求」是互補的。
其實這些不衝突。最省的組合,是 prompt caching 打底 + pxpipe 壓大塊靜態內容 + 精確值走純文字。省 token 這條賽道最近很熱,之前我寫過幫 AI agent 裝「程式碼記憶」少重讀的 codebase-memory-mcp,還有把 Claude Code、Cursor 的 API 統一路由、順便省錢的 OmniRoute 免費 AI gateway,想把帳單壓到底可以一起看。
有沒有替代方案?不喜歡 pxpipe 可以用什麼
當然有,我從來不會叫你只押一個工具:
- caveman:同樣是砍 token,但走「改寫語法」路線,手動可控、不碰圖片、沒有讀錯精確值的問題。
- 官方 prompt caching:Anthropic 自家的快取機制,安全、無損,省的是重複讀取的成本。
- DeepSeek OCR 那類「文件變圖片」壓縮:思路跟 pxpipe 同源,適合處理超長文件而非即時對話。
- 從源頭砍:學 Anthropic 把系統提示砍 80% 的做法,精簡你自己的 CLAUDE.md、工具清單、prompt,能省的 token 一開始就別產生。
想更全面地把 AI 開發成本壓下來,順手看看我寫過的 OmniRoute、昨天的 codex-plugin-cc(在 Claude Code 裡叫 Codex 幫你 review),還有讓 Claude Code / Cursor 直接控制瀏覽器 debug 的 chrome-devtools-mcp,跟這篇是同一套「把 AI 用得又猛又省」的思路。
省下的 API 錢,怎麼變成你的錢?
這才是我最想跟你聊的一段。很多人把「省 token」當成摳門,其實它真正的意義是解鎖你原本不敢做的事。
當你的 Claude Code 帳單從一個月幾百美金變成幾十美金,你會開始願意做以前捨不得做的事:多掛幾個自動化 agent 幫你跑重複工作、寫幾支長期常駐的爬蟲或監控腳本、接一個需要大量 AI 呼叫才划算的外包案。省下來的不只是錢,是「敢不敢放手讓 AI 一直跑」的心理門檻。一個月省下的 $300,可能就是你副業第一個能穩定運轉的自動化流程。
如果你想把 AI 從「花錢的玩具」變成「幫你賺錢的工人」,可以看看我整理的 AI Agent 接案與變現機會,還有更多把工具接到出路的實戰文都放在 slash-invest.com 首頁。工具省下的每一塊,都應該有機會滾回你口袋。
新手行動清單(照做就對了)
- ☐ 確認你主力是不是 Fable 5 / GPT-5.6(是的話最吃得到紅利;Opus 為主先別急)。
- ☐ 開終端機跑
npx pxpipe-proxy,再用ANTHROPIC_BASE_URL=http://127.0.0.1:47821 claude接上。 - ☐ 打開 http://127.0.0.1:47821/ 儀表板,跑一天真實工作,看實際省了多少。
- ☐ 把 ID、hash、密鑰、金鑰這類必須一字不差的東西,留成文字或走純文字 subagent。
- ☐ 覺得延遲比省的錢更煩,就按 kill switch 或設
PXPIPE_MODELS=off,零負擔退出。 - ☐ 順手用官方 prompt caching 打底,兩個一起省更多。
常見問題 FAQ
Q:pxpipe 要付費嗎?
不用。MIT 授權,完全開源免費,你付的只有原本的 Claude / API 費用(而且會變少)。
Q:它會把我的程式碼傳到別人的伺服器嗎?
不會。pxpipe 是跑在你自己電腦上的本地 proxy,渲染在你機器上完成,之後才照常轉發給 Anthropic,中間沒有第三方伺服器。
Q:真的每個人都能省 70% 嗎?
不保證。59–70% 是作者在特定工作負載下的實測,數字跟你的內容密度、模型、官方定價都有關。省下的「比例」會浮動,但「token 有沒有變少」是可以在儀表板逐筆驗證的。
Q:用了會不會讓 AI 變笨、答錯?
在密集程式碼與一般推理上,benchmark 顯示準確度幾乎沒掉(Fable 5 新算術題 100%、記憶回想 98/98)。真正的風險在「逐字精確值」:hex、hash 這種東西讀圖片會出錯,所以那些要留成文字。
Q:Opus 4.8 用戶能用嗎?
能,但預設是關的。Opus 對圖片化 context 會誤讀約 7%,所以要自己手動開。除非你很清楚在做什麼,否則建議 Opus 主力的人先觀望,或只在 Fable 5 的工作上開。
Q:這算不算鑽 Anthropic 漏洞、之後會被封嗎?
它鑽的是「圖片按像素計價」這個公開規則,用的是官方支援的圖片輸入功能,沒有破解任何東西。但作者自己也說,如果這招流行起來,AI 公司有可能調整圖片定價來應對。所以把它當成「現在能用的省法」,別當成永遠的鐵飯碗。
結論:值不值得裝?
如果你是重度 Claude Code 使用者、主力跑 Fable 5 或 GPT-5.6、每個月看到 API 帳單會心痛,pxpipe 值得你花 30 秒裝來試。最壞情況就是覺得慢、按掉,你什麼都沒損失;最好情況是帳單直接砍一半以上。它最讓我欣賞的其實是那份誠實:作者把有損、會讀錯、只在密集內容划算這些缺點全寫在最前面,還附上會翻車的真實案例。這種工具,比那些只喊「省 90%」的乾淨多了。
如果你只是偶爾用 AI 聊聊天、帳單根本沒感覺,那就別折騰了,官方 prompt caching 對你就夠。省下的錢是其次,真正的重點是你敢不敢把 AI 放開來跑。
免責聲明:本文為工具介紹與個人使用心得,非投資或財務建議。pxpipe 為第三方開源專案(MIT 授權),與 Anthropic、OpenAI 無隸屬關係;文中數據來自作者公開 benchmark 與媒體報導,實際省下比例因工作負載、模型與官方定價而異,安裝與使用請自行評估風險並以官方文件為準。截至 2026 年 7 月。





發表迴響