advanced-evaluation

Name: advanced-evaluation
Author: muratcankoylan

by muratcankoylan

This skill should be used when the user asks to \

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: muratcankoylan
Category: DevOps
Views: 23

GitHub repo

About this skill

This skill should be used when the user asks to \

How to use

Zainstaluj skill w swoim środowisku agenta, dodając repozytorium muratcankoylan/Agent-Skills-for-Context-Engineering do dostępnych umiejętności.
Aktywuj skill, gdy chcesz porównać wyniki różnych modeli lub ocenić jakość odpowiedzi LLM. Skill automatycznie rozpozna pytania o "LLM-as-judge", "porównanie wyników modeli", "rubryk ewaluacyjne" lub "ocenę bias'u".
Wybierz metodę ewaluacji: dla kryteriów obiektywnych (dokładność faktów, zgodność z instrukcją) użyj direct scoring – pojedyncza ocena na zdefiniowanej skali. Dla preferencji subiektywnych (ton, styl, perswazyjność) wybierz pairwise comparison – porównanie dwóch odpowiedzi.
Zdefiniuj rubryke oceny lub kryteria, które skill będzie stosować. Skill pomoże ci ustandaryzować oceny między zespołami i zmniejszyć niespójności w interpretacji skal.
Uruchom ewaluację na zbiorze odpowiedzi. Skill będzie monitorować błędy pozycyjne (position bias) i długości odpowiedzi, które mogą zniekształcić wyniki.
Przeanalizuj korelację między ocenami automatycznymi a ludzkimi, aby zweryfikować niezawodność systemu i dostroić parametry w razie potrzeby.

Related skills

3d-games

by davila7

3D game development principles. Rendering, shaders, physics, cameras.

DevOps

1355

postmortem-writing

by wshobson

Write effective blameless postmortems with root cause analysis, timelines, and action items. Use when conducting incident reviews, writing postmortem documents, or improving incident response processes.

DevOps

1385

unity-developer

by sickn33

Build Unity games with optimized C# scripts, efficient rendering, and proper asset management. Masters Unity 6 LTS, URP/HDRP pipelines, and cross-platform deployment. Handles gameplay systems, UI implementation, and platform optimization. Use PROACTIVELY for Unity performance

DevOps

66164

file-organizer

by ComposioHQ

Intelligently organizes your files and folders across your computer by understanding context, finding duplicates, suggesting better structures, and automating cleanup tasks. Reduces cognitive load and keeps your digital workspace tidy without manual effort.

DevOps

1399

game-art

by davila7

Game art principles. Visual style selection, asset pipeline, animation workflow.

DevOps

1268

senior-computer-vision

by davila7

World-class computer vision skill for image/video processing, object detection, segmentation, and visual AI systems. Expertise in PyTorch, OpenCV, YOLO, SAM, diffusion models, and vision transformers. Includes 3D vision, video analysis, real-time processing, and production

DevOps

1044