So sánh thời gian khởi động torch.compile: SGLang vs vLLM
Người dùng báo cáo sự khác biệt lớn khi chạy Gemma 3 12B:
- vLLM (mặc định compile): ~1 phút.
- SGLang (không compile): ~1 phút 30 giây.
- SGLang (có compile, bs 1-16): ~6 phút.
Dù SGLang cho hiệu suất tăng 5-15% ở batch size thấp, chi phí khởi động lại quá cao. Nguyên nhân có thể do vLLM dùng "piecewise compilation" nhanh hơn, trong khi SGLang gắn chặt compile với CUDA graph toàn phần.