video-ffmpeg

Sleeping

App Files Files Community

Tim13ekd commited on 6 days ago

Commit

029da5b

verified ·

1 Parent(s): fb76288

Update app.py

Browse files

Files changed (1) hide show

app.py +106 -81

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ import subprocess
 import shutil
 import os
-# NEU: Dauer des Fade-In/Out für jedes einzelne Wort (z.B. 0.2 Sekunden)
 WORD_FADE_DURATION = 0.2
 FFMPEG_ESCAPE_CHAR = "\\"
@@ -24,32 +24,22 @@ def get_font_path():
     for font in possible_fonts:
         if os.path.exists(font):
             return font
-    return None # Fallback: FFmpeg soll selbst suchen (klappt manchmal nicht)
 def save_temp_audio(audio_file_path):
-    """
-    Speichert die hochgeladene Audio-Datei in einem temporären Verzeichnis.
-    Erwartet einen Dateipfad-String von Gradio.
-    """
     if not audio_file_path:
         return None, None
-    # Gradio liefert einen String-Pfad zum temporären Speicherort
     input_path = Path(audio_file_path)
-    # Bestimme die Erweiterung
     ext = input_path.suffix
     if ext.lower() not in allowed_audios:
         ext = ".mp3"
-    # Erstelle das Zielverzeichnis und den Zielpfad
     temp_audio_dir = Path(tempfile.mkdtemp())
     temp_audio = temp_audio_dir / f"input{ext}"
-    # Kopiere die Datei vom Gradio-Temp-Pfad in unseren eigenen Temp-Pfad
     try:
         shutil.copyfile(input_path, temp_audio)
-        # Rückgabe des Verzeichnisses, das später gelöscht werden kann, und des Dateipfads
         return temp_audio_dir, temp_audio
     except Exception as e:
         print(f"Fehler beim Kopieren der Audiodatei: {e}")
@@ -57,86 +47,118 @@ def save_temp_audio(audio_file_path):
              shutil.rmtree(temp_audio_dir)
         return None, None
-def create_timed_drawtext(word, start_time, duration, font_option, font_size, y_pos, style):
-    """Erstellt einen FFmpeg drawtext Filter, der ein Wort mit weichen Übergängen (Alpha-Kanal) einblendet,
-       basierend auf dem gewählten Stil."""
-    global FFMPEG_ESCAPE_CHAR
-    global WORD_FADE_DURATION
-    # 1. Escaping: Ersetze alle ":" durch "\:" für FFmpeg
-    escaped_word = word.replace(':', f"{FFMPEG_ESCAPE_CHAR}:")
-    # Definiere die Start- und Endzeit des WORTES
-    end_time = start_time + duration
-    # Zeitpunkte für den Fade
-    fade_in_end = start_time + WORD_FADE_DURATION
-    fade_out_start = end_time - WORD_FADE_DURATION
     # Alpha-Ausdruck für smooth Fade-In und Fade-Out
     alpha_expression = (
         f"if(lt(t,{start_time}), 0, "
-        f"if(lt(t,{fade_in_end}), (t-{start_time})/{WORD_FADE_DURATION}, "
-        f"if(lt(t,{fade_out_start}), 1, "
-        f"if(lt(t,{end_time}), ({end_time}-t)/{WORD_FADE_DURATION}, 0))))"
     )
-    # --- STYLING BASIEREND AUF AUSWAHL (Style-Namen werden in Kleinbuchstaben übergeben) ---
-    # Default-Werte (Modern-Stil)
     params = {
-        "fontcolor": "white",
-        "borderw": 2,
         "bordercolor": "black",
-        "box": 0,
-        "boxcolor": "",
         "fontsize_override": font_size
     }
-    style_lower = style.lower().replace(" ", "")
-    if style_lower == "pop":
-        # Heller, auffälliger Text (Gelb mit Kontur, etwas größer)
         params["fontcolor"] = "yellow"
-        params["borderw"] = 3
         params["fontsize_override"] = font_size * 1.1
-    elif style_lower == "bold":
-        # Starker Kontrast, sehr dickerer Rand
-        params["fontcolor"] = "white"
-        params["borderw"] = 5 # Dickerer Rand für "Bold"
-        params["fontsize_override"] = font_size * 1.05
     elif style_lower == "badge":
-        # Grüner Kasten (Mint) als Hintergrund für das aktive Wort
         params["fontcolor"] = "white"
         params["borderw"] = 0
         params["box"] = 1
-        # Mint Green (0x50C878) @1.0 (opak)
-        params["boxcolor"] = "0x50C878@1.0"
     elif style_lower == "word":
-        # Gelber Kasten als Hintergrund für das aktive Wort
-        params["fontcolor"] = "white"
         params["borderw"] = 0
         params["box"] = 1
-        # Gold/Yellow (0xFFD700) @1.0 (opak)
-        params["boxcolor"] = "0xFFD700@1.0"
-    # Filter-String basierend auf den dynamischen Parametern erstellen
-    drawtext_filter = (
-        f"drawtext=text='{escaped_word}'{font_option}:"
         f"fontcolor={params['fontcolor']}:"
         f"fontsize={params['fontsize_override']}:"
         f"borderw={params['borderw']}:"
         f"bordercolor={params['bordercolor']}:"
-        # Füge Box-Parameter nur hinzu, wenn box=1 (Badge- oder Word-Stil)
         + (f"box={params['box']}:boxcolor={params['boxcolor']}:boxborderw=10:" if params["box"] else "") +
-        f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}:"
         f"alpha='{alpha_expression}'"
     )
-    return drawtext_filter
 def generate_slideshow_with_audio(images, input_text, duration_per_word, duration_per_image, fade_duration, font_size, y_pos, audio_file, subtitle_style):
@@ -156,7 +178,7 @@ def generate_slideshow_with_audio(images, input_text, duration_per_word, duratio
     remainder = total_words % num_images
     current_word_index = 0
-    clips_with_text = [] # Paths der generierten MP4-Clips
     # Schriftart finden
     font_path = get_font_path()
@@ -173,26 +195,31 @@ def generate_slideshow_with_audio(images, input_text, duration_per_word, duratio
         # 1. Bestimme das Wortsegment für diesen Clip
         words_on_this_clip = base_words_per_clip + (1 if i < remainder else 0)
-        # Extrahieren des Segments aus der Gesamtliste der Wörter
         word_segment = words[current_word_index : current_word_index + words_on_this_clip]
         current_word_index += len(word_segment)
         # 2. Berechne die Clip-Dauer
         text_duration = len(word_segment) * duration_per_word
-        # Die Dauer ist das Maximum aus der gewünschten Bilddauer und der benötigten Textdauer
         duration_clip = max(duration_per_image, text_duration)
-        # 3. Generiere Drawtext Filter (Startzeit ist relativ zum Clip-Start, also 0)
         drawtext_filters = []
-        word_start_time = 0.0
-        for word in word_segment:
-            # Füge den Stil-Parameter hinzu
-            filter_str = create_timed_drawtext(word, word_start_time, duration_per_word, font_option, font_size, y_pos, subtitle_style)
-            drawtext_filters.append(filter_str)
-            word_start_time += duration_per_word
-        # 4. Basis- und Fade-Filter
         base_filters = (
             "scale=w=1280:h=720:force_original_aspect_ratio=decrease,"
             "pad=1280:720:(ow-iw)/2:(oh-ih)/2:color=black,"
@@ -203,7 +230,7 @@ def generate_slideshow_with_audio(images, input_text, duration_per_word, duratio
         if fade_out_start < 0: fade_out_start = 0
         fade_img_filter = f"fade=t=in:st=0:d={fade_duration},fade=t=out:st={fade_out_start}:d={fade_duration}"
-        # 5. Kombiniere alle Filter
         if drawtext_filters:
             all_drawtext_filters = ",".join(drawtext_filters)
             vf_filters_clip = f"{base_filters},{all_drawtext_filters},{fade_img_filter}"
@@ -211,7 +238,7 @@ def generate_slideshow_with_audio(images, input_text, duration_per_word, duratio
             # Kein Text mehr: Nur Bild mit Fade
             vf_filters_clip = f"{base_filters},{fade_img_filter}"
-        # 6. FFmpeg Command zum Erstellen des Clips
         cmd = [
             "ffmpeg", "-y", "-loop", "1", "-i", str(img_path),
             "-t", str(duration_clip),
@@ -280,18 +307,18 @@ with gr.Blocks() as demo:
     with gr.Row():
         img_input = gr.Files(label="Bilder", file_types=allowed_medias)
-        text_input = gr.Textbox(label="Text (Wörter werden gleichmäßig auf alle Bilder verteilt)", lines=5, placeholder="Jedes Wort wird für 'Dauer pro Wort' angezeigt.")
     with gr.Row():
         duration_image_input = gr.Number(value=3, label="Mindest-Dauer pro BILD (s)")
-        duration_word_input = gr.Number(value=1.0, label="Dauer pro WORT (s) [bestimmt Geschwindigkeit der Text-Anzeige]")
         fade_input = gr.Number(value=0.5, label="Bild-Fade Dauer (s)")
     with gr.Row():
         font_size_input = gr.Number(value=80, label="Schriftgröße (px)")
         ypos_input = gr.Slider(0.0, 1.0, value=0.9, label="Y-Position (0=Oben, 1=Unten)")
-        # NEUE EINGABE FÜR STILE: Enthält jetzt "Word" und nutzt korrekte Groß-/Kleinschreibung
         subtitle_style_input = gr.Dropdown(
             ["Modern", "Pop", "Bold", "Badge", "Word"],
             label="Untertitel-Stil",
@@ -305,8 +332,6 @@ with gr.Blocks() as demo:
     out_video = gr.Video(label="Ergebnis")
     status = gr.Textbox(label="Status")
-    # KORREKTE REIHENFOLGE DER INPUTS aktualisiert um 'subtitle_style_input':
-    # (images, input_text, duration_per_word, duration_per_image, fade_duration, font_size, y_pos, audio_file, subtitle_style)
     btn.click(
         fn=generate_slideshow_with_audio,
         inputs=[
@@ -318,7 +343,7 @@ with gr.Blocks() as demo:
             font_size_input,
             ypos_input,
             audio_input,
-            subtitle_style_input # NEUE EINGABE
         ],
         outputs=[out_video, status]
     )

 import shutil
 import os
+# Konstanten
 WORD_FADE_DURATION = 0.2
 FFMPEG_ESCAPE_CHAR = "\\"
     for font in possible_fonts:
         if os.path.exists(font):
             return font
+    return None
 def save_temp_audio(audio_file_path):
+    """Speichert die hochgeladene Audio-Datei in einem temporären Verzeichnis."""
     if not audio_file_path:
         return None, None
     input_path = Path(audio_file_path)
     ext = input_path.suffix
     if ext.lower() not in allowed_audios:
         ext = ".mp3"
     temp_audio_dir = Path(tempfile.mkdtemp())
     temp_audio = temp_audio_dir / f"input{ext}"
     try:
         shutil.copyfile(input_path, temp_audio)
         return temp_audio_dir, temp_audio
     except Exception as e:
         print(f"Fehler beim Kopieren der Audiodatei: {e}")
              shutil.rmtree(temp_audio_dir)
         return None, None
+def create_sentence_base_filter(full_text, duration_clip, font_option, font_size, y_pos, style):
+    """
+    Erstellt den FFmpeg drawtext Filter für die Basisschicht (den gesamten Satzabschnitt),
+    der für die volle Clip-Dauer sichtbar ist.
+    """
+    # Standard-Stil für inaktiven Text (Modern)
+    base_params = {
+        "fontcolor": "white",
+        "borderw": 2,
+        "bordercolor": "black",
+        "box": 0, "boxcolor": "",
+        "fontsize": font_size
+    }
+    style_lower = style.lower()
+    # SPEZIALFALL: Pop Style (IMG_1456)
+    if style_lower == "pop":
+        # Ganzer Satzabschnitt in dunkler, semi-transparenter Box
+        base_params["box"] = 1
+        base_params["boxcolor"] = "[email protected]"
+        base_params["fontsize"] = font_size * 1.1
+    escaped_text = full_text.replace(':', FFMPEG_ESCAPE_CHAR + ':')
+    # Filter für den gesamten Satz, sichtbar für die gesamte Clip-Dauer
+    return (
+        f"drawtext=text='{escaped_text}':"
+        f"fontcolor={base_params['fontcolor']}:"
+        f"fontsize={base_params['fontsize']}:"
+        f"borderw={base_params['borderw']}:"
+        f"bordercolor={base_params['bordercolor']}:"
+        + (f"box={base_params['box']}:boxcolor={base_params['boxcolor']}:boxborderw=10:" if base_params["box"] else "") +
+        f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}:{font_option}:"
+        f"enable='between(t, 0, {duration_clip})'"
+    )
+def create_highlight_word_filter(word, full_text, start_time, duration, font_option, font_size, y_pos, style):
+    """
+    Erstellt den FFmpeg drawtext Filter für die Highlight-Schicht (nur das aktive Wort).
+    Dieses Wort wird in der Mitte des Bildschirms angezeigt und überblendet die Basisschicht
+    während seiner Aktivierungszeit.
+    """
+    word_end_time = start_time + duration
     # Alpha-Ausdruck für smooth Fade-In und Fade-Out
     alpha_expression = (
         f"if(lt(t,{start_time}), 0, "
+        f"if(lt(t,{start_time + WORD_FADE_DURATION}), (t-{start_time})/{WORD_FADE_DURATION}, "
+        f"if(lt(t,{word_end_time - WORD_FADE_DURATION}), 1, "
+        f"if(lt(t,{word_end_time}), ({word_end_time}-t)/{WORD_FADE_DURATION}, 0))))"
     )
+    # Styling Parameter (Standard: Gelb/Bold-Highlight)
     params = {
+        "fontcolor": "yellow",
+        "borderw": 3,
         "bordercolor": "black",
+        "box": 0, "boxcolor": "",
         "fontsize_override": font_size
     }
+    style_lower = style.lower()
+    if style_lower == "modern":
+        # Modern: Minimaler Highlight (etwas größer)
+        params["fontcolor"] = "white"
+        params["borderw"] = 2
+        params["fontsize_override"] = font_size * 1.05
+    elif style_lower == "bold":
+        # Bold: Gelb mit starkem Rand (wie in IMG_1455)
         params["fontcolor"] = "yellow"
+        params["borderw"] = 4
         params["fontsize_override"] = font_size * 1.1
+    elif style_lower == "pop":
+        # Pop: Gelbe Schrift, kein Rand (Box wird von der Basisschicht gezeichnet)
+        params["fontcolor"] = "yellow"
+        params["borderw"] = 0
+        params["fontsize_override"] = font_size * 1.1
     elif style_lower == "badge":
+        # Badge: Mint Green Box um das Wort (wie in IMG_1453)
         params["fontcolor"] = "white"
         params["borderw"] = 0
         params["box"] = 1
+        params["boxcolor"] = "[email protected]" # Mint Green
+        params["fontsize_override"] = font_size * 1.05
     elif style_lower == "word":
+        # Word: Gelbe Box um das Wort (wie in IMG_1454)
+        params["fontcolor"] = "black" # Textfarbe auf schwarz, da Box gelb ist
         params["borderw"] = 0
         params["box"] = 1
+        params["boxcolor"] = "[email protected]" # Yellow
+        params["fontsize_override"] = font_size * 1.05
+    escaped_word = word.replace(':', FFMPEG_ESCAPE_CHAR + ':')
+    # Filter für das einzelne, hervorgehobene Wort
+    return (
+        f"drawtext=text='{escaped_word}':"
         f"fontcolor={params['fontcolor']}:"
         f"fontsize={params['fontsize_override']}:"
         f"borderw={params['borderw']}:"
         f"bordercolor={params['bordercolor']}:"
         + (f"box={params['box']}:boxcolor={params['boxcolor']}:boxborderw=10:" if params["box"] else "") +
+        f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}:{font_option}:"
         f"alpha='{alpha_expression}'"
     )
 def generate_slideshow_with_audio(images, input_text, duration_per_word, duration_per_image, fade_duration, font_size, y_pos, audio_file, subtitle_style):
     remainder = total_words % num_images
     current_word_index = 0
+    clips_with_text = []
     # Schriftart finden
     font_path = get_font_path()
         # 1. Bestimme das Wortsegment für diesen Clip
         words_on_this_clip = base_words_per_clip + (1 if i < remainder else 0)
         word_segment = words[current_word_index : current_word_index + words_on_this_clip]
         current_word_index += len(word_segment)
+        full_text = " ".join(word_segment)
         # 2. Berechne die Clip-Dauer
         text_duration = len(word_segment) * duration_per_word
         duration_clip = max(duration_per_image, text_duration)
         drawtext_filters = []
+        if full_text:
+            # ERSTE SCHICHT: Der gesamte Satz (als Basis)
+            base_filter = create_sentence_base_filter(full_text, duration_clip, font_option, font_size, y_pos, subtitle_style)
+            drawtext_filters.append(base_filter)
+            # ZWEITE SCHICHT: Highlight-Layer für jedes Wort
+            word_start_time = 0.0
+            for word in word_segment:
+                highlight_filter = create_highlight_word_filter(word, full_text, word_start_time, duration_per_word, font_option, font_size, y_pos, subtitle_style)
+                drawtext_filters.append(highlight_filter)
+                word_start_time += duration_per_word
+        # 3. Basis- und Fade-Filter
         base_filters = (
             "scale=w=1280:h=720:force_original_aspect_ratio=decrease,"
             "pad=1280:720:(ow-iw)/2:(oh-ih)/2:color=black,"
         if fade_out_start < 0: fade_out_start = 0
         fade_img_filter = f"fade=t=in:st=0:d={fade_duration},fade=t=out:st={fade_out_start}:d={fade_duration}"
+        # 4. Kombiniere alle Filter
         if drawtext_filters:
             all_drawtext_filters = ",".join(drawtext_filters)
             vf_filters_clip = f"{base_filters},{all_drawtext_filters},{fade_img_filter}"
             # Kein Text mehr: Nur Bild mit Fade
             vf_filters_clip = f"{base_filters},{fade_img_filter}"
+        # 5. FFmpeg Command zum Erstellen des Clips
         cmd = [
             "ffmpeg", "-y", "-loop", "1", "-i", str(img_path),
             "-t", str(duration_clip),
     with gr.Row():
         img_input = gr.Files(label="Bilder", file_types=allowed_medias)
+        text_input = gr.Textbox(label="Text (Wörter werden gleichmäßig auf alle Bilder verteilt)", lines=5, placeholder="Der Satzabschnitt ist pro Clip sichtbar. Das aktive Wort wird hervorgehoben.")
     with gr.Row():
         duration_image_input = gr.Number(value=3, label="Mindest-Dauer pro BILD (s)")
+        duration_word_input = gr.Number(value=1.0, label="Dauer pro WORT (s) [bestimmt Geschwindigkeit der Hervorhebung]")
         fade_input = gr.Number(value=0.5, label="Bild-Fade Dauer (s)")
     with gr.Row():
         font_size_input = gr.Number(value=80, label="Schriftgröße (px)")
         ypos_input = gr.Slider(0.0, 1.0, value=0.9, label="Y-Position (0=Oben, 1=Unten)")
+        # Untertitel-Stile
         subtitle_style_input = gr.Dropdown(
             ["Modern", "Pop", "Bold", "Badge", "Word"],
             label="Untertitel-Stil",
     out_video = gr.Video(label="Ergebnis")
     status = gr.Textbox(label="Status")
     btn.click(
         fn=generate_slideshow_with_audio,
         inputs=[
             font_size_input,
             ypos_input,
             audio_input,
+            subtitle_style_input
         ],
         outputs=[out_video, status]
     )