B
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Guide for benchmarking FlashInfer kernels with CUPTI timing
How to use
- Zainstaluj CUPTI dla najdokładniejszych pomiarów: uruchom
pip install -U cupti-python. Wymaga CUDA 13 lub nowszej. Jeśli CUPTI nie jest dostępny, skill automatycznie przejdzie na CUDA Events i wyświetli ostrzeżenie. - Wybierz rutynę testową z dostępnych opcji: Attention (BatchDecodeWithPagedKVCacheWrapper, BatchPrefillWithPagedKVCacheWrapper, BatchPrefillWithRaggedKVCacheWrapper, BatchMLAPagedAttentionWrapper), GEMM (bmm_fp8, gemm_fp8_nt_groupwise, group_gemm_fp8_nt_groupwise, mm_fp4) lub MOE (trtllm_fp4_block_scale_moe, trtllm_fp8_block_scale_moe, trtllm_fp8_per_tensor_scale_moe, cutlass_fused_moe).
- Uruchom benchmark dla wybranej rutyny za pomocą skryptu flashinfer_benchmark.py z parametrami określającymi typ testu i konfigurację.
- Skill zmierzy czysty czas wykonania jądra GPU bez narzutu komunikacji host-device (CUPTI) lub z minimalnym narzutem (CUDA Events).
- Wyniki będą zapisane w formacie CSV do analizy i porównania wydajności między różnymi backendami.