tts-audio-mastering
Practical mastering steps for TTS audio: cleanup, loudness normalization, alignment, and delivery specs.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Practical mastering steps for TTS audio: cleanup, loudness normalization, alignment, and delivery specs.
How to use
Wybierz silnik TTS odpowiedni do Twoich potrzeb: silniki neuronowe offline (np. Kokoro) dla stabilności i niezależności sieciowej, usługi chmurowe (np. Edge-TTS, OpenAI TTS) dla wyższej naturalności, lub formantowe (np. espeak-ng) do prototypowania. Zawsze sprawdź natywną częstotliwość próbkowania wygenerowanego audio przed konwersją do formatu wideo.
Zastosuj czyszczenie mowy dla każdego segmentu: usuń szumy niskich częstotliwości filtrem górnoprzepustowym na ~20 Hz, opcjonalnie zmniejsz ostre brzmienia filtrem dolnoprzepustowym na ~16 kHz, a na granicach segmentów dodaj krótkie zanikanie (fade-in i fade-out ~50 ms). Utrzymuj spójne ustawienia filtrów dla wszystkich segmentów.
Zmierz głośność wygenerowanego audio za pomocą narzędzia ebur128 w FFmpeg lub równoważnego miernika, aby uzyskać wartości zgodne ze standardem ITU-R BS.1770: zintegrowana głośność -23 LUFS, szczytowa wartość rzeczywista około -1,5 dBTP, opcjonalnie LRA około 11.
Zastosuj normalizację głośności (np. filtr loudnorm w FFmpeg) jako ostatni krok po czyszczeniu i edycji czasowej. Jeśli zmienisz tempo lub czas trwania segmentu po normalizacji, powtórz normalizację ponownie.
Dopasuj każdy segment audio do jego docelowego okna czasowego w projekcie wideo, zwracając uwagę na granice segmentów, aby uniknąć przerw lub nakładania się. Upewnij się, że wszystkie segmenty są wyrównane do wspólnej częstotliwości próbkowania i formatu przed eksportem.
Wyeksportuj ostateczne audio w formacie zgodnym z wymaganiami dostarczenia (np. WAV, MP3 lub format wideo), zachowując ustawienia głośności i czystości uzyskane w poprzednich krokach.