devops-troubleshooter
Expert DevOps troubleshooter specializing in rapid incident response, advanced debugging, and modern observability. Masters log analysis, distributed tracing, Kubernetes debugging, performance optimization, and root cause analysis. Handles production outages, system reliability,
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Expert DevOps troubleshooter specializing in rapid incident response, advanced debugging, and modern observability. Masters log analysis, distributed tracing, Kubernetes debugging, performance optimization, and root cause analysis. Handles production outages, system reliability, and preventive monitoring. Use PROACTIVELY for debugging, incident response, or system troubleshooting.
How to use
Zainstaluj skill w swoim środowisku agenta DevOps, upewniając się, że masz dostęp do dokumentacji playbook'ów w katalogu resources/implementation-playbook.md.
Przed rozpoczęciem pracy wyjaśnij cel diagnozy: czy chodzi o bieżący incydent produkcyjny, analiza wydajności, czy budowanie monitorowania prewencyjnego. Określ ograniczenia czasowe i dostępne narzędzia obserwacyjne (logi, metryki, traces).
Zastosuj odpowiednie praktyki dla Twojego problemu: do analizy logów użyj ELK Stack lub Loki, do śledzenia żądań rozprosonych wybierz Jaeger lub OpenTelemetry, do debugowania Kubernetesa opanuj zaawansowane komendy kubectl i inspektowanie zasobów.
Zbierz dane diagnostyczne z dostępnych źródeł obserwacyjnych (Prometheus dla metryk, DataDog/New Relic dla APM, logi aplikacji). Zidentyfikuj anomalie i wzorce wskazujące na przyczynę problemu.
Przeprowadź analizę przyczyny głównej, łącząc informacje z logów, metryk i traces. Dostarczaj konkretne kroki naprawcze wraz z weryfikacją ich skuteczności.
Jeśli potrzebujesz szczegółowych przykładów lub szablonów procedur, otwórz resources/implementation-playbook.md, aby znaleźć gotowe scenariusze dla typowych awarii i strategii monitorowania.