nowait-reasoning-optimizer
Implements the NOWAIT technique for efficient reasoning in R1-style LLMs. Use when optimizing inference of reasoning models (QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL, QvQ), reducing chain-of-thought token usage by 27-51% while preserving accuracy. Triggers on \
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Implements the NOWAIT technique for efficient reasoning in R1-style LLMs. Use when optimizing inference of reasoning models (QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL, QvQ), reducing chain-of-thought token usage by 27-51% while preserving accuracy. Triggers on \
How to use
Sklonuj repozytorium z komponentem umiejętności z gałęzi głównej projektu claude-code-templates. Umiejętność znajduje się w katalogu cli-tool/components/skills/productivity/nowait.
Zainstaluj wymagane zależności dla swojego modelu rozumującego. Upewnij się, że masz dostęp do tokenizera modelu, który będziesz optymalizować (QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL lub QvQ).
Zaimportuj NOWAITLogitProcessor z modułu scripts/nowait_processor w swoim kodzie Pythona. Inicjalizuj procesor, przekazując tokenizer Twojego modelu jako argument.
Podczas generowania tekstu przekaż zainicjalizowany procesor do parametru logits_processor metody generate() modelu. Ustaw max_new_tokens na wymaganą wartość (np. 32768 dla dłuższych sekwencji myślenia).
Uruchom model z włączonym procesorem NOWAIT. Technika automatycznie supresuje tokeny autorefleksji (takie jak "Wait", "Hmm", "Alternatively"), skracając wyjście bez konieczności dodatkowego trenowania.
Monitoruj zmianę długości wyjścia i kosztów tokenów. Dla modeli opartych na uczeniu przez wzmacnianie (RL) możesz oczekiwać redukcji 16-60% w zależności od serii modelu. Unikaj stosowania NOWAIT do modeli zdystylowanych (Qwen3-4B/8B/14B), gdzie mogą pojawić się problemy z wydajnością.