Toolverse
All skills

mistral-performance-tuning

by jeremylongshore

Optimize Mistral AI performance with caching, batching, and latency reduction.\nUse when experiencing slow API responses, implementing caching strategies,\nor optimizing request throughput for Mistral AI integrations.\nTrigger with phrases like \

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
Security
Views
1

About this skill

Optimize Mistral AI performance with caching, batching, and latency reduction.\nUse when experiencing slow API responses, implementing caching strategies,\nor optimizing request throughput for Mistral AI integrations.\nTrigger with phrases like \

How to use

  1. Zainstaluj skill w swoim środowisku Claude Code, Codex lub OpenClaw, upewniając się że masz aktywną integrację Mistral API w produkcji oraz znasz limity RPM/TPM dla swojego poziomu dostępu.

  2. Wyzwól skill frazami takimi jak "mistral performance", "optimize mistral", "mistral latency", "mistral caching" lub "mistral slow" gdy chcesz poprawić szybkość odpowiedzi.

  3. Wybierz model Mistral dostosowany do Twojego przypadku użycia: mistral-small-latest (~200ms) dla czatu, codestral-latest (~150ms) dla uzupełniania kodu, mistral-large-latest (~500ms) dla zadań wymagających rozumowania, pixtral-large-latest (~600ms) dla multimodalności, lub ministral-latest (~100ms) dla urządzeń brzegowych.

  4. Zaimplementuj cachowanie dla powtarzających się promptów i kontekstu aby osiągnąć zerowe opóźnienie, a także batching dla równoczesnych żądań w ramach limitów Twojej warstwy dostępu.

  5. Zmniejsz długość promptu usuwając zbędne tokeny i włącz streaming do postrzegania szybszych odpowiedzi, szczególnie w interfejsach czasu rzeczywistego.

  6. Monitoruj czasy pierwszego tokena (TTFT) dla wybranego modelu i dostosuj architekturę aplikacji aby obsługiwała streaming oraz zarządzanie współbieżnymi żądaniami zgodnie z dokumentacją Mistral API.

Related skills