Toolverse
All skills

computer-use-agents

by davila7

Build AI agents that interact with computers like humans do - viewing screens, moving cursors, clicking buttons, and typing text. Covers Anthropic's Computer Use, OpenAI's Operator/CUA, and open-source alternatives. Critical focus on sandboxing, security, and handling the unique

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
Security
Views
30

About this skill

Build AI agents that interact with computers like humans do - viewing screens, moving cursors, clicking buttons, and typing text. Covers Anthropic's Computer Use, OpenAI's Operator/CUA, and open-source alternatives. Critical focus on sandboxing, security, and handling the unique challenges of vision-based control. Use when: computer use, desktop automation agent, screen control AI, vision-based agent, GUI automation.

How to use

  1. Zainstaluj wymagane zależności: bibliotekę Anthropic SDK, PIL do przetwarzania obrazów oraz pyautogui do sterowania myszą i klawiaturą. Upewnij się, że masz dostęp do klucza API Anthropic.

  2. Zaimportuj klasę ComputerUseAgent z umiejętności i zainicjuj ją, przekazując klienta Anthropic oraz wybrany model (domyślnie claude-sonnet-4-20250514). Ustaw maksymalną liczbę kroków (max_steps) aby zapobiec nieskończonym pętlom – domyślnie 50 iteracji.

  3. Zaimplementuj pętlę Perception-Reasoning-Action: agent przechwytuje zrzut ekranu, konwertuje go do formatu base64, wysyła do modelu wizyjnego w celu analizy i planowania następnego kroku.

  4. Model zwraca instrukcje akcji (ruch myszy, klik, wpisanie tekstu). Wykonaj te akcje za pomocą pyautogui, zachowując opóźnienie między operacjami (domyślnie 0,5 sekundy) dla stabilności.

  5. Po każdej akcji przechwytuj nowy zrzut ekranu i obserwuj rezultat. Agent automatycznie koryguje się na podstawie zmian na ekranie – pętla trwa do osiągnięcia celu lub wyczerpania kroków.

  6. Pamiętaj o bezpieczeństwie: uruchamiaj agenta w izolowanym środowisku (sandbox), ogranicz dostęp do wrażliwych systemów i monitoruj akcje agenta w czasie rzeczywistym, szczególnie podczas fazy testowania.

Related skills

accessibility-compliance

by wshobson

Implement WCAG 2.2 compliant interfaces with mobile accessibility, inclusive design patterns, and assistive technology support. Use when auditing accessibility, implementing ARIA patterns, building for screen readers, or ensuring inclusive user experiences.

Security
2173

solidity-security

by wshobson

Master smart contract security best practices to prevent common vulnerabilities and implement secure Solidity patterns. Use when writing smart contracts, auditing existing contracts, or implementing security measures for blockchain applications.

Security
10105

security-compliance

by davila7

Guides security professionals in implementing defense-in-depth security architectures, achieving compliance with industry frameworks (SOC2, ISO27001, GDPR, HIPAA), conducting threat modeling and risk assessments, managing security operations and incident response, and embedding

Security
1172

brand-voice

by anthropics

Apply and enforce brand voice, style guide, and messaging pillars across content. Use when reviewing content for brand consistency, documenting a brand voice, adapting tone for different audiences, or checking terminology and style guide compliance.

Security
48158

reverse-engineering-tools

by gmh5225

Guide for reverse engineering tools and techniques used in game security research. Use this skill when working with debuggers, disassemblers, memory analysis tools, binary analysis, or decompilers for game security research.

Security
3168

content-creator

by alirezarezvani

Create SEO-optimized marketing content with consistent brand voice. Includes brand voice analyzer, SEO optimizer, content frameworks, and social media templates. Use when writing blog posts, creating social media content, analyzing brand voice, optimizing SEO, planning content

Security
25124