lmstudio-subagents
Reduces token usage from paid providers by offloading work to local LM Studio models. Use when: (1) Cutting costs—use local models for summarization, extraction, classification, rewriting, first-pass review, brainstorming when quality suffices, (2) Avoiding paid API calls for
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Reduces token usage from paid providers by offloading work to local LM Studio models. Use when: (1) Cutting costs—use local models for summarization, extraction, classification, rewriting, first-pass review, brainstorming when quality suffices, (2) Avoiding paid API calls for high-volume or repetitive tasks, (3) No extra model configuration—JIT loading and REST API work with existing LM Studio setup, (4) Local-only or privacy-sensitive work. Requires LM Studio 0.4+ with server (default :1234). No CLI required.
How to use
Upewnij się, że masz zainstalowane LM Studio w wersji 0.4 lub nowszej z uruchomionym serwerem na porcie 1234 (domyślnie http://127.0.0.1:1234). Umiejętność komunikuje się z tym serwerem za pomocą REST API i nagłówka autoryzacji Bearer lmstudio.
Pobierz listę dostępnych modeli, wysyłając żądanie GET do /api/v1/models. Każdy model ma unikalny klucz (key), który będziesz używać w poleceniach. Jeśli chcesz załadować model na żądanie, LM Studio obsługuje JIT loading — model zostanie załadowany automatycznie przy pierwszym użyciu.
Wybierz zadanie do wykonania na lokalnym modelu: streszczanie, ekstrakcję informacji, klasyfikację tekstu, przepisywanie lub brainstorming. Pamiętaj, że lokalne modele mogą być szybsze, ale mniej dokładne niż płatne API — używaj ich dla zadań, gdzie jakość jest akceptowalna.
Uruchom umiejętność, podając model i tekst zadania. Możesz sterować parametrami, takimi jak temperature (np. --temperature=0.5), aby wpłynąć na kreatywność odpowiedzi. Umiejętność zwraca response_id, który możesz użyć do kontynuacji rozmowy (jako previous_response_id).
Jeśli chcesz zwolnić zasoby, możesz wyładować model za pomocą instance_id. Zwróć uwagę, że instance_id pochodzi z listy loaded_instances zwróconej przez API — może różnić się od klucza modelu, zwłaszcza jeśli masz wiele instancji tego samego modelu (np. key:2).
Monitoruj oszczędności tokenów: każde zadanie wykonane lokalnie zamiast na płatnym API zmniejsza Twoje koszty. Kombinuj lokalne modele z płatnymi dla zadań wymagających wyższej jakości.