Toolverse
All skills

podcast-generation

by microsoft

Generate AI-powered podcast-style audio narratives using Azure OpenAI's GPT Realtime Mini model via WebSocket. Use when building text-to-speech features, audio narrative generation, podcast creation from content, or integrating with Azure OpenAI Realtime API for real audio

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
microsoft
Category
DevOps

About this skill

Generate AI-powered podcast-style audio narratives using Azure OpenAI's GPT Realtime Mini model via WebSocket. Use when building text-to-speech features, audio narrative generation, podcast creation from content, or integrating with Azure OpenAI Realtime API for real audio output. Covers full-stack implementation from React frontend to Python FastAPI backend with WebSocket streaming.

How to use

  1. Skonfiguruj zmienne środowiskowe: AZURE_OPENAI_AUDIO_API_KEY (klucz API), AZURE_OPENAI_AUDIO_ENDPOINT (bazowy URL zasobu Azure, bez /openai/v1/) i AZURE_OPENAI_AUDIO_DEPLOYMENT (ustaw na gpt-realtime-mini).

  2. W backendzie Python zainicjuj klienta AsyncOpenAI, konwertując HTTPS endpoint na WebSocket URL (zamień https:// na wss:// i dodaj /openai/v1 na koniec).

  3. Nawiąż połączenie WebSocket do modelu gpt-realtime-mini i skonfiguruj sesję z output_modalities ustawioną na audio oraz instrukcjami dla narratora.

  4. Wyślij tekst do narracji jako wiadomość użytkownika przez API konwersacji.

  5. Zbieraj przychodzące zdarzenia streamingowe z audio (chunki PCM) i transkrypcję, konwertując PCM na format WAV.

  6. Zwróć zakodowane audio w base64 do frontendu React w celu odtworzenia użytkownikowi.

Related skills