smart-model-switching-glm
Auto-route tasks to the cheapest z.ai (GLM) model that works correctly. Three-tier progression: Flash → Standard → Plus/32B. Classify before responding.\nFLASH (default): factual Qu0026A, greetings, reminders, status checks, lookups, simple file ops, heartbeats, casual chat, 1–2
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Auto-route tasks to the cheapest z.ai (GLM) model that works correctly. Three-tier progression: Flash → Standard → Plus/32B. Classify before responding.\nFLASH (default): factual Qu0026A, greetings, reminders, status checks, lookups, simple file ops, heartbeats, casual chat, 1–2 sentence tasks, cron jobs.\nESCALATE TO STANDARD: code u003e10 lines, analysis, comparisons, planning, reports, multi-step reasoning, tables, long writing u003e3 paragraphs, summarization, research synthesis, most user conversations.\nESCALATE TO PLUS/32B: architecture decisions, complex debugging, multi-file refactoring, strategic planning, nuanced judgment, deep research, critical production decisions.\nRule: If a human needs u003e30 seconds of focused thinking, escalate. If Standard struggles with complexity, go to Plus/32B. Save major API costs by starting cheap and escalating only when needed.
How to use
Zainstaluj umiejętność smart-model-switching-glm w swoim środowisku z.ai (GLM). Skill automatycznie przejmuje kontrolę nad wyborem modelu dla każdego nowego żądania.
Przesyłaj swoje zadania normalnie – nie musisz nic zmieniać w sposobie komunikacji. Umiejętność sama przeanalizuje, jakie przetwarzanie jest potrzebne.
Dla prostych zadań (pytania faktyczne, pozdrowienia, sprawdzenie statusu, krótkie operacje na plikach) system automatycznie użyje Flash – najszybszego i najtańszego modelu.
Gdy zadanie wymaga więcej pracy (kod powyżej 10 linii, analiza, porównania, raporty, długie teksty, wieloetapowe rozumowanie), system automatycznie eskaluje do Standard – silniejszego modelu z lepszym rozumowaniem.
Dla najtrudniejszych wyzwań (decyzje architektoniczne, złożone debugowanie, refaktoryzacja wielu plików, strategiczne planowanie, krytyczne decyzje produkcyjne) system przechodzi na Plus/32B – najpotężniejszy dostępny model.
Pamiętaj złotą regułę: jeśli człowiek potrzebuje więcej niż 30 sekund skupionego myślenia, zadanie powinno być obsługiwane przez Standard lub wyżej. Jeśli Standard ma problemy ze złożonością, przejdź na Plus/32B. W ten sposób minimalizujesz koszty API, zaczynając tanio i eskalując tylko gdy naprawdę trzeba.