Тестируемый конфиг:

1 x 5090 на PCIe Gen 3.0 x8 (андрервольт до 450W)
4 x 3090 на PCIe Gen 3.0 x4 (андрервольт до 250W)

Бекенд: https://github.com/theroyallab/tabbyAPI (commit hash 996bc8d)

Тестируем на одном и том же чате с включённым режимом tensor_parallel. Число токенов для каждой модели отличается из-за разных токенизаторов.


Тест на мелкой плотной модели (контекст чата = 16862 токенов):
https://huggingface.co/turboderp/gemma-3-27b-it-exl3/tree/4.0bpw

GPU processing generating
1 x 5090 1213.09 T/s 🥇 27.39 T/s 🥉
1 x 3090 680.19 T/s 11.37 T/s
2 x 3090 813.8 T/s 19.53 T/s
3 x 3090 815.38 T/s 🥉 25.47 T/s
4 x 3090 707.3 T/s 30.58 T/s 🥈
1 x 5090 + 1 x 3090 (делим веса 24/24) 841.42 T/s 🥈 20.28 T/s
1 x 5090 + 4 x 3090 (делим веса 24/24/24/24/24) 723.38 T/s 33.58 T/s 🥇

Тест на мелкой MoE (контекст чата = 19290 токенов):
https://huggingface.co/ArtusDev/Qwen_Qwen3-Coder-30B-A3B-Instruct-EXL3/tree/4.0bpw_H6

GPU processing generating
1 x 5090 1142.1 T/s 65.74 T/s 🥇
1 x 3090 932.33 T/s 40.34 T/s
2 x 3090 1391.77 T/s 50.96 T/s
3 x 3090 1549.4 T/s 🥉 52.17 T/s
4 x 3090 1595.53 T/s 🥈 60.03 T/s 🥉
1 x 5090 + 1 x 3090 (делим веса 24/24) 1434.2 T/s 52.44 T/s
1 x 5090 + 4 x 3090 (делим веса 24/24/24/24/24) 1671.58 T/s 🥇 60.82 T/s 🥈

Тест на крупной MoE сразу со всеми картами (контекст чата = 19290 токенов, делим веса 32/24/24/24/24):
https://huggingface.co/MikeRoz/Qwen3-235B-A22B-Instruct-2507-exl3/tree/3.60bpw_H6

TP processing generating
tensor_parallel: false 439.43 T/s 19.15 T/s
tensor_parallel: true 492.49 T/s 26.69 T/s
Edit

Pub: 24 Oct 2025 13:14 UTC

Views: 17