Тестируемый конфиг:
Бекенд: https://github.com/theroyallab/tabbyAPI (commit hash 996bc8d)
Тестируем на одном и том же чате с включённым режимом tensor_parallel. Число токенов для каждой модели отличается из-за разных токенизаторов.
Тест на мелкой плотной модели (контекст чата = 16862 токенов):
https://huggingface.co/turboderp/gemma-3-27b-it-exl3/tree/4.0bpw
| GPU | processing | generating |
|---|---|---|
| 1 x 5090 | 1213.09 T/s 🥇 | 27.39 T/s 🥉 |
| 1 x 3090 | 680.19 T/s | 11.37 T/s |
| 2 x 3090 | 813.8 T/s | 19.53 T/s |
| 3 x 3090 | 815.38 T/s 🥉 | 25.47 T/s |
| 4 x 3090 | 707.3 T/s | 30.58 T/s 🥈 |
| 1 x 5090 + 1 x 3090 (делим веса 24/24) | 841.42 T/s 🥈 | 20.28 T/s |
| 1 x 5090 + 4 x 3090 (делим веса 24/24/24/24/24) | 723.38 T/s | 33.58 T/s 🥇 |
Тест на мелкой MoE (контекст чата = 19290 токенов):
https://huggingface.co/ArtusDev/Qwen_Qwen3-Coder-30B-A3B-Instruct-EXL3/tree/4.0bpw_H6
| GPU | processing | generating |
|---|---|---|
| 1 x 5090 | 1142.1 T/s | 65.74 T/s 🥇 |
| 1 x 3090 | 932.33 T/s | 40.34 T/s |
| 2 x 3090 | 1391.77 T/s | 50.96 T/s |
| 3 x 3090 | 1549.4 T/s 🥉 | 52.17 T/s |
| 4 x 3090 | 1595.53 T/s 🥈 | 60.03 T/s 🥉 |
| 1 x 5090 + 1 x 3090 (делим веса 24/24) | 1434.2 T/s | 52.44 T/s |
| 1 x 5090 + 4 x 3090 (делим веса 24/24/24/24/24) | 1671.58 T/s 🥇 | 60.82 T/s 🥈 |
Тест на крупной MoE сразу со всеми картами (контекст чата = 19290 токенов, делим веса 32/24/24/24/24):
https://huggingface.co/MikeRoz/Qwen3-235B-A22B-Instruct-2507-exl3/tree/3.60bpw_H6
| TP | processing | generating |
|---|---|---|
tensor_parallel: false |
439.43 T/s | 19.15 T/s |
tensor_parallel: true |
492.49 T/s | 26.69 T/s |