成本優化策略

預算突破預期？這頁給你 5 個立即可行的方法。按效益排序，先做第 1 個。

本頁許多設定可以直接告訴 Rose 做，不用懂終端機。例如「把 Ada 的預設模型改成 GPT-4o-mini」。手動指令供熟悉的客戶參考。

1. 換模型（效益最大）

省錢幅度：50% - 95%

最簡單，改一個設定，成本降一半以上。

什麼時候用便宜模型

任務類型	推薦模型
客服 FAQ 回覆	GPT-4o-mini / Claude Haiku / Gemini Flash
翻譯、摘要	GPT-4o-mini
閒聊、陪伴	GPT-4o-mini
簡單分類、標籤	Gemini Flash
大量批次處理	Gemini Flash / Groq

什麼時候用貴模型

任務類型	推薦模型
程式碼生成、除錯	Claude 3.5 Sonnet
複雜推理、分析	GPT-4o / o1
長文理解（> 100K tokens）	Gemini 1.5 Pro
創意寫作	Claude 3.5 Sonnet

設定方式

告訴 Rose：

「把 Ada 的預設模型改成 GPT-4o-mini」

或手動：管理儀表板（Admin Panel） → Ada Dashboard → 設定 → Model → 選擇新模型。

建議用「分層模型」策略：

預設用便宜模型
特定複雜任務才用貴模型
OpenClaw / Hermes 都支援在工作流程中動態切換模型

2. 開啟 Context 壓縮

省錢幅度：40% - 70%

問題：長對話會累積歷史，越聊越貴。第 50 輪對話可能要帶 50,000 Tokens 的歷史。

解法：自動摘要舊訊息。

原理

無壓縮：
  第 100 輪對話 = 整段歷史（50,000 T）+ 當輪（500 T）= 50,500 T

有壓縮：
  前 90 輪 → 摘要成 2,000 T
  最近 10 輪保留原文 5,000 T
  當輪 500 T
  = 7,500 T

差 6.7 倍。長對話省超過 80%。

設定方式

告訴 Rose：

「幫 Ada 開啟 Context 壓縮，歷史超過 20 輪就自動摘要」

或手動：

openclaw config set memory.contextCompression.enabled true
openclaw config set memory.contextCompression.triggerAfterTurns 20
openclaw config set memory.contextCompression.keepRecentTurns 10

副作用

壓縮後舊對話的細節會模糊。重要資訊（公司名稱、客戶 ID、訂單）建議存到記憶系統（memory-wiki），不靠對話歷史保留。

3. 限制回應長度

省錢幅度：30% - 60%

AI 預設會盡情回答，有時一個簡單問題回一整頁。

設定

告訴 Rose：

「Ada 回應最多 300 Tokens，除非我特別要求長回應」

或手動：

openclaw config set model.maxTokens 300

建議上限

用途	maxTokens
客服 FAQ	200-400
一般對話	500
寫 Email、文案	1000-2000
長篇分析	4000+

進階：System Prompt 加規則

在 Ada 的 AGENTS.md（人格設定）加：

## 回應風格規則
- 除非使用者明確要求，否則回應不超過 5 句
- 長解釋改用條列（更省 Token）
- 不要重複使用者的問題當開場

這些規則本身耗 Token（每次都要帶），但幫你省更多 Output Token。

4. 開啟回應快取

省錢幅度：60% - 90%（僅限重複問題）

許多客服場景有大量重複問題：「怎麼退貨？」「營業時間？」「價格？」

每次都讓 AI 重新回答 = 浪費。

兩種快取方式

方式 A：Prompt Caching（OpenAI / Anthropic 原生）

openclaw config set model.enablePromptCaching true

Input Tokens 部分（System Prompt、Agent 人格、工具定義）會被快取，下次命中打 9 折。

方式 B：Response Caching（完整回應快取）

常見問題的完整回應快取，下次相同問題直接回。

openclaw config set responseCaching.enabled true
openclaw config set responseCaching.ttlSeconds 3600
openclaw config set responseCaching.minSimilarity 0.95

minSimilarity 0.95 = 問題相似度 95% 以上才用快取，避免誤用。

5. 分工策略（架構層優化）

省錢幅度：視情境 30% - 80%

用三個 AI 夥伴分工，把貴的事集中在少數情況。

常見架構

客戶 LINE 訊息
    ↓
[Ada - GPT-4o-mini] 快速判斷
    ├─ 標準 FAQ → 自己回（省）
    ├─ 複雜問題 → 呼叫 Rose（升級到 GPT-4o）
    └─ 資料查詢 → 呼叫 Vi（MCP 工具）

效果：

80% 訊息走 GPT-4o-mini（$0.15/M）
15% 升級到 GPT-4o（$2.50/M）
5% 專門查資料（中等成本）

加權平均成本遠低於全部走 GPT-4o。

設定方式

在多 Agent 協作有詳細設定範例。

次級優化（效益較小但累積可觀）

關閉不必要的工具

AI 每次對話都會把工具定義塞進 Input Tokens。工具越多 Input 越大。

# 看目前啟用的工具
openclaw tool list

# 關閉用不到的
openclaw tool disable web-search
openclaw tool disable image-generation

限流

# 每小時最多 100 次 API 呼叫
openclaw config set rateLimit.requestsPerHour 100

# 每位使用者每天最多 50 次
openclaw config set rateLimit.perUserPerDay 50

避免被濫用或 Bot 攻擊燒錢。

關閉 Streaming（視情況）

Streaming（逐字回應）在某些供應商會被多算 Token。若不在意體驗，可關閉：

openclaw config set channels.*.streaming "off"

實戰範例：把月費從 $800 降到 $150

以下為示意情境，實際節省幅度依你的對話型態、使用量、模型選擇而定。不保證任何具體數字。

起始狀態：

電商客服，每日 200 筆對話
全部用 GPT-4o
沒開 Context 壓縮
沒設回應長度
月費 $800

優化步驟：

換模型 — 主力改成 GPT-4o-mini，複雜問題才升級：$800 → $280
Context 壓縮 — 歷史超過 15 輪摘要：$280 → $200
回應上限 400 Tokens — $200 → $170
FAQ Prompt Caching — $170 → $150

4 個設定改動，省了 81%。

成本優化策略

1. 換模型（效益最大）

什麼時候用便宜模型

什麼時候用貴模型

設定方式

2. 開啟 Context 壓縮

原理

設定方式

副作用

3. 限制回應長度

設定

建議上限

進階：System Prompt 加規則

4. 開啟回應快取

兩種快取方式

5. 分工策略（架構層優化）

常見架構

設定方式

次級優化（效益較小但累積可觀）

關閉不必要的工具

限流

關閉 Streaming（視情況）

實戰範例：把月費從 $800 降到 $150

相關文件