realvco Docs

成本優化策略

預算突破預期?這頁給你 5 個立即可行的方法。按效益排序,先做第 1 個。

本頁許多設定可以直接告訴 Rose 做,不用懂終端機。例如「把 Ada 的預設模型改成 GPT-4o-mini」。手動指令供熟悉的客戶參考。


1. 換模型(效益最大)

省錢幅度:50% - 95%

最簡單,改一個設定,成本降一半以上。

什麼時候用便宜模型

任務類型推薦模型
客服 FAQ 回覆GPT-4o-mini / Claude Haiku / Gemini Flash
翻譯、摘要GPT-4o-mini
閒聊、陪伴GPT-4o-mini
簡單分類、標籤Gemini Flash
大量批次處理Gemini Flash / Groq

什麼時候用貴模型

任務類型推薦模型
程式碼生成、除錯Claude 3.5 Sonnet
複雜推理、分析GPT-4o / o1
長文理解(> 100K tokens)Gemini 1.5 Pro
創意寫作Claude 3.5 Sonnet

設定方式

告訴 Rose:

「把 Ada 的預設模型改成 GPT-4o-mini」

或手動:管理儀表板(Admin Panel) → Ada Dashboard → 設定 → Model → 選擇新模型。

建議用「分層模型」策略

  • 預設用便宜模型
  • 特定複雜任務才用貴模型
  • OpenClaw / Hermes 都支援在工作流程中動態切換模型

2. 開啟 Context 壓縮

省錢幅度:40% - 70%

問題:長對話會累積歷史,越聊越貴。第 50 輪對話可能要帶 50,000 Tokens 的歷史。

解法:自動摘要舊訊息。

原理

無壓縮:
  第 100 輪對話 = 整段歷史(50,000 T)+ 當輪(500 T)= 50,500 T

有壓縮:
  前 90 輪 → 摘要成 2,000 T
  最近 10 輪保留原文 5,000 T
  當輪 500 T
  = 7,500 T

差 6.7 倍。長對話省超過 80%。

設定方式

告訴 Rose:

「幫 Ada 開啟 Context 壓縮,歷史超過 20 輪就自動摘要」

或手動:

openclaw config set memory.contextCompression.enabled true
openclaw config set memory.contextCompression.triggerAfterTurns 20
openclaw config set memory.contextCompression.keepRecentTurns 10

副作用

壓縮後舊對話的細節會模糊。重要資訊(公司名稱、客戶 ID、訂單)建議存到記憶系統(memory-wiki),不靠對話歷史保留。


3. 限制回應長度

省錢幅度:30% - 60%

AI 預設會盡情回答,有時一個簡單問題回一整頁。

設定

告訴 Rose:

「Ada 回應最多 300 Tokens,除非我特別要求長回應」

或手動:

openclaw config set model.maxTokens 300

建議上限

用途maxTokens
客服 FAQ200-400
一般對話500
寫 Email、文案1000-2000
長篇分析4000+

進階:System Prompt 加規則

在 Ada 的 AGENTS.md人格設定)加:

## 回應風格規則
- 除非使用者明確要求,否則回應不超過 5 句
- 長解釋改用條列(更省 Token)
- 不要重複使用者的問題當開場

這些規則本身耗 Token(每次都要帶),但幫你省更多 Output Token。


4. 開啟回應快取

省錢幅度:60% - 90%(僅限重複問題)

許多客服場景有大量重複問題:「怎麼退貨?」「營業時間?」「價格?」

每次都讓 AI 重新回答 = 浪費。

兩種快取方式

方式 A:Prompt Caching(OpenAI / Anthropic 原生)

openclaw config set model.enablePromptCaching true

Input Tokens 部分(System Prompt、Agent 人格、工具定義)會被快取,下次命中打 9 折。

方式 B:Response Caching(完整回應快取)

常見問題的完整回應快取,下次相同問題直接回。

openclaw config set responseCaching.enabled true
openclaw config set responseCaching.ttlSeconds 3600
openclaw config set responseCaching.minSimilarity 0.95

minSimilarity 0.95 = 問題相似度 95% 以上才用快取,避免誤用。


5. 分工策略(架構層優化)

省錢幅度:視情境 30% - 80%

用三個 AI 夥伴分工,把貴的事集中在少數情況。

常見架構

客戶 LINE 訊息

[Ada - GPT-4o-mini] 快速判斷
    ├─ 標準 FAQ → 自己回(省)
    ├─ 複雜問題 → 呼叫 Rose(升級到 GPT-4o)
    └─ 資料查詢 → 呼叫 Vi(MCP 工具)

效果

  • 80% 訊息走 GPT-4o-mini($0.15/M)
  • 15% 升級到 GPT-4o($2.50/M)
  • 5% 專門查資料(中等成本)

加權平均成本遠低於全部走 GPT-4o。

設定方式

多 Agent 協作 有詳細設定範例。


次級優化(效益較小但累積可觀)

關閉不必要的工具

AI 每次對話都會把工具定義塞進 Input Tokens。工具越多 Input 越大。

# 看目前啟用的工具
openclaw tool list

# 關閉用不到的
openclaw tool disable web-search
openclaw tool disable image-generation

限流

# 每小時最多 100 次 API 呼叫
openclaw config set rateLimit.requestsPerHour 100

# 每位使用者每天最多 50 次
openclaw config set rateLimit.perUserPerDay 50

避免被濫用或 Bot 攻擊燒錢。

關閉 Streaming(視情況)

Streaming(逐字回應)在某些供應商會被多算 Token。若不在意體驗,可關閉:

openclaw config set channels.*.streaming "off"

實戰範例:把月費從 $800 降到 $150

以下為示意情境,實際節省幅度依你的對話型態、使用量、模型選擇而定。不保證任何具體數字。

起始狀態:

  • 電商客服,每日 200 筆對話
  • 全部用 GPT-4o
  • 沒開 Context 壓縮
  • 沒設回應長度
  • 月費 $800

優化步驟:

  1. 換模型 — 主力改成 GPT-4o-mini,複雜問題才升級:$800 → $280
  2. Context 壓縮 — 歷史超過 15 輪摘要:$280 → $200
  3. 回應上限 400 Tokens — $200 → $170
  4. FAQ Prompt Caching — $170 → $150

4 個設定改動,省了 81%。


相關文件