podcast-generation
Generate AI-powered podcast-style audio narratives using Azure OpenAI's GPT Realtime Mini model via WebSocket. Use when building text-to-speech features, audio narrative generation, podcast creation from content, or integrating with Azure OpenAI Realtime API for real audio
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Generate AI-powered podcast-style audio narratives using Azure OpenAI's GPT Realtime Mini model via WebSocket. Use when building text-to-speech features, audio narrative generation, podcast creation from content, or integrating with Azure OpenAI Realtime API for real audio output. Covers full-stack implementation from React frontend to Python FastAPI backend with WebSocket streaming.
How to use
Skonfiguruj zmienne środowiskowe: AZURE_OPENAI_AUDIO_API_KEY (klucz API), AZURE_OPENAI_AUDIO_ENDPOINT (bazowy URL zasobu Azure, bez /openai/v1/) i AZURE_OPENAI_AUDIO_DEPLOYMENT (ustaw na gpt-realtime-mini).
W backendzie Python zainicjuj klienta AsyncOpenAI, konwertując HTTPS endpoint na WebSocket URL (zamień https:// na wss:// i dodaj /openai/v1 na koniec).
Nawiąż połączenie WebSocket do modelu gpt-realtime-mini i skonfiguruj sesję z output_modalities ustawioną na audio oraz instrukcjami dla narratora.
Wyślij tekst do narracji jako wiadomość użytkownika przez API konwersacji.
Zbieraj przychodzące zdarzenia streamingowe z audio (chunki PCM) i transkrypcję, konwertując PCM na format WAV.
Zwróć zakodowane audio w base64 do frontendu React w celu odtworzenia użytkownikowi.