Тестируемый конфиг:

⎗
✓
1 x 5090 на PCIe Gen 3.0 x8 (андрервольт до 450W)
4 x 3090 на PCIe Gen 3.0 x4 (андрервольт до 250W)

Тестируем на одном и том же чате с включённым режимом tensor_parallel. Число токенов для каждой модели отличается из-за разных токенизаторов.

Тест на мелкой плотной модели (контекст чата = 16862 токенов):
https://huggingface.co/turboderp/gemma-3-27b-it-exl3/tree/4.0bpw

Тест на крупной MoE сразу со всеми картами (контекст чата = 19290 токенов, делим веса 32/24/24/24/24):
https://huggingface.co/MikeRoz/Qwen3-235B-A22B-Instruct-2507-exl3/tree/3.60bpw_H6

TP	processing	generating
`tensor_parallel: false`	439.43 T/s	19.15 T/s
`tensor_parallel: true`	492.49 T/s	26.69 T/s

Warning