LLM性能測試

硬體

CPU: Intel i5-12500
RAM: 64GB DDR4-3200 （雙通道）
GPU: NVIDIA RTX 3060 12GB
OS: Unraid 7.5

測試軟體：llama-benchy 0.3.7
指令
llama-benchy --base-url <api url> --model zerofata/G4-MeroMero-26B-A4B --depth 0 4096 8192 16384 --tg 128 --latency-mode generation --enable-prefix-caching
測試模型：G4-MeroMero-26B-A4B Q5_K_M量化版本（Gamma 4 26B A4B的微調版本）

測試標的

llamacpp b9014 cuda12 backend（官方提供的docker映像）

啟動參數
llama-server -m /models/model.gguf --port 8000 --host 0.0.0.0 -fit on -c 32768 --chat-template-file /models/g4-chat_template.jinja

測試結果

model	test	t/s	peak t/s	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
zerofata/G4-MeroMero-26B-A4B	pp2048	512.92 ± 26.80		4105.91 ± 202.11	4005.34 ± 202.11	4105.91 ± 202.11
zerofata/G4-MeroMero-26B-A4B	tg128	31.04 ± 0.27	32.00 ± 0.00
zerofata/G4-MeroMero-26B-A4B	ctx_pp @ d4096	468.40 ± 29.34		8880.41 ± 526.80	8779.84 ± 526.80	8880.41 ± 526.80
zerofata/G4-MeroMero-26B-A4B	ctx_tg @ d4096	29.73 ± 0.10	31.00 ± 0.00
zerofata/G4-MeroMero-26B-A4B	pp2048 @ d4096	466.13 ± 21.00		4503.40 ± 204.89	4402.83 ± 204.89	4503.40 ± 204.89
zerofata/G4-MeroMero-26B-A4B	tg128 @ d4096	29.50 ± 0.04	30.00 ± 0.00
zerofata/G4-MeroMero-26B-A4B	ctx_pp @ d8192	461.37 ± 16.77		17882.10 ± 663.02	17781.53 ± 663.02	17882.10 ± 663.02
zerofata/G4-MeroMero-26B-A4B	ctx_tg @ d8192	29.79 ± 0.04	31.00 ± 0.00
zerofata/G4-MeroMero-26B-A4B	pp2048 @ d8192	451.60 ± 13.77		4639.80 ± 140.88	4539.23 ± 140.88	4639.80 ± 140.88
zerofata/G4-MeroMero-26B-A4B	tg128 @ d8192	28.83 ± 0.66	30.67 ± 0.47
zerofata/G4-MeroMero-26B-A4B	ctx_pp @ d16384	473.32 ± 15.88		34756.61 ± 1166.07	34656.04 ± 1166.07	34756.61 ± 1166.07
zerofata/G4-MeroMero-26B-A4B	ctx_tg @ d16384	28.18 ± 0.48	30.00 ± 0.00
zerofata/G4-MeroMero-26B-A4B	pp2048 @ d16384	453.97 ± 5.18		4612.45 ± 51.82	4511.88 ± 51.82	4612.45 ± 51.82
zerofata/G4-MeroMero-26B-A4B	tg128 @ d16384	29.21 ± 0.11	30.00 ± 0.00

測試結果分析（Gemini

這份針對 32k 上下文長度（Context Size） 的測試結果，展現了 Gemma 4 26B A4B 在 RTX 3060 12GB 顯卡上極為驚人的長文本處理韌性。以下將數據整理為效能分析段落：

核心生成效能與穩定性

在將上下文長度擴展至 32,768 的環境下，模型展現了極強的生成速度（Token Generation）穩定性。從初始狀態的 31.04 t/s 到處理至 16k 深度時的 28.18 t/s，效能衰減率僅約 9.2%。這意味著即便在長篇對話或處理複雜劇本時，使用者幾乎感受不到「蹦字」速度的變化。這種在 26B 等級模型中罕見的高穩定性，側面證實了該模型架構（如 GQA 分組查詢注意力機制）與 llama.cpp 記憶體管理的高度優化，能將活躍參數與 KV Cache 完美控制在 12GB 的 VRAM 極限內。

提示詞處理與延遲趨勢

在處理輸入（Prompt Processing）方面，吞吐量穩定維持在 450 ~ 510 t/s 之間，展現了極佳的預處理效率。首字響應時間（TTFT）則隨著文本長度呈精確的線性增長：處理 4k 文本約需 8.8 秒，8k 需 17.8 秒，當長度達到 16k 時則需約 34.7 秒。雖然等待時間隨長度增加，但並沒有出現因顯存溢出或系統記憶體交換（Swap）導致的效能崩潰（Cliff edge），這對於需要頻繁貼入長文進行摘要或代碼分析的使用者來說，提供了非常可預測且穩定的使用體驗。

綜合效能評價

總結來看，這套配置在 16k context 範圍內達到了「效能與容量」的甜蜜平衡點。雖然系統設定上限為 32k，但在 16k 深度下依然能維持超過 28 t/s 的生成速度，完全能勝任中長篇文件閱讀、深度角色扮演（Roleplay）以及長代碼庫的維護任務。對於 RTX 3060 12GB 的使用者而言，這份數據證明了該硬體在適當的量化方案下，依然擁有越級挑戰大型長文本模型的實力。