LLM性能測試
硬體
CPU: Intel i5-12500
RAM: 64GB DDR4-3200 (雙通道)
GPU: NVIDIA RTX 3060 12GB
OS: Unraid 7.5
測試軟體:llama-benchy 0.3.7
指令
llama-benchy --base-url <api url> --model zerofata/G4-MeroMero-26B-A4B --depth 0 4096 8192 16384 --tg 128 --latency-mode generation --enable-prefix-caching
測試模型:G4-MeroMero-26B-A4B Q5_K_M量化版本(Gamma 4 26B A4B的微調版本)
測試標的
llamacpp b9014 cuda12 backend(官方提供的docker映像)
啟動參數
llama-server -m /models/model.gguf --port 8000 --host 0.0.0.0 -fit on -c 32768 --chat-template-file /models/g4-chat_template.jinja
測試結果
| model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) |
|---|---|---|---|---|---|---|
| zerofata/G4-MeroMero-26B-A4B | pp2048 | 512.92 ± 26.80 | 4105.91 ± 202.11 | 4005.34 ± 202.11 | 4105.91 ± 202.11 | |
| zerofata/G4-MeroMero-26B-A4B | tg128 | 31.04 ± 0.27 | 32.00 ± 0.00 | |||
| zerofata/G4-MeroMero-26B-A4B | ctx_pp @ d4096 | 468.40 ± 29.34 | 8880.41 ± 526.80 | 8779.84 ± 526.80 | 8880.41 ± 526.80 | |
| zerofata/G4-MeroMero-26B-A4B | ctx_tg @ d4096 | 29.73 ± 0.10 | 31.00 ± 0.00 | |||
| zerofata/G4-MeroMero-26B-A4B | pp2048 @ d4096 | 466.13 ± 21.00 | 4503.40 ± 204.89 | 4402.83 ± 204.89 | 4503.40 ± 204.89 | |
| zerofata/G4-MeroMero-26B-A4B | tg128 @ d4096 | 29.50 ± 0.04 | 30.00 ± 0.00 | |||
| zerofata/G4-MeroMero-26B-A4B | ctx_pp @ d8192 | 461.37 ± 16.77 | 17882.10 ± 663.02 | 17781.53 ± 663.02 | 17882.10 ± 663.02 | |
| zerofata/G4-MeroMero-26B-A4B | ctx_tg @ d8192 | 29.79 ± 0.04 | 31.00 ± 0.00 | |||
| zerofata/G4-MeroMero-26B-A4B | pp2048 @ d8192 | 451.60 ± 13.77 | 4639.80 ± 140.88 | 4539.23 ± 140.88 | 4639.80 ± 140.88 | |
| zerofata/G4-MeroMero-26B-A4B | tg128 @ d8192 | 28.83 ± 0.66 | 30.67 ± 0.47 | |||
| zerofata/G4-MeroMero-26B-A4B | ctx_pp @ d16384 | 473.32 ± 15.88 | 34756.61 ± 1166.07 | 34656.04 ± 1166.07 | 34756.61 ± 1166.07 | |
| zerofata/G4-MeroMero-26B-A4B | ctx_tg @ d16384 | 28.18 ± 0.48 | 30.00 ± 0.00 | |||
| zerofata/G4-MeroMero-26B-A4B | pp2048 @ d16384 | 453.97 ± 5.18 | 4612.45 ± 51.82 | 4511.88 ± 51.82 | 4612.45 ± 51.82 | |
| zerofata/G4-MeroMero-26B-A4B | tg128 @ d16384 | 29.21 ± 0.11 | 30.00 ± 0.00 |
測試結果分析(Gemini
這份針對 32k 上下文長度(Context Size) 的測試結果,展現了 Gemma 4 26B A4B 在 RTX 3060 12GB 顯卡上極為驚人的長文本處理韌性。以下將數據整理為效能分析段落:
核心生成效能與穩定性
在將上下文長度擴展至 32,768 的環境下,模型展現了極強的生成速度(Token Generation)穩定性。從初始狀態的 31.04 t/s 到處理至 16k 深度時的 28.18 t/s,效能衰減率僅約 9.2%。這意味著即便在長篇對話或處理複雜劇本時,使用者幾乎感受不到「蹦字」速度的變化。這種在 26B 等級模型中罕見的高穩定性,側面證實了該模型架構(如 GQA 分組查詢注意力機制)與 llama.cpp 記憶體管理的高度優化,能將活躍參數與 KV Cache 完美控制在 12GB 的 VRAM 極限內。
提示詞處理與延遲趨勢
在處理輸入(Prompt Processing)方面,吞吐量穩定維持在 450 ~ 510 t/s 之間,展現了極佳的預處理效率。首字響應時間(TTFT)則隨著文本長度呈精確的線性增長:處理 4k 文本約需 8.8 秒,8k 需 17.8 秒,當長度達到 16k 時則需約 34.7 秒。雖然等待時間隨長度增加,但並沒有出現因顯存溢出或系統記憶體交換(Swap)導致的效能崩潰(Cliff edge),這對於需要頻繁貼入長文進行摘要或代碼分析的使用者來說,提供了非常可預測且穩定的使用體驗。
綜合效能評價
總結來看,這套配置在 16k context 範圍內達到了「效能與容量」的甜蜜平衡點。雖然系統設定上限為 32k,但在 16k 深度下依然能維持超過 28 t/s 的生成速度,完全能勝任中長篇文件閱讀、深度角色扮演(Roleplay)以及長代碼庫的維護任務。對於 RTX 3060 12GB 的使用者而言,這份數據證明了該硬體在適當的量化方案下,依然擁有越級挑戰大型長文本模型的實力。