video-ffmpeg

Running

App Files Files Community

Tim13ekd commited on 5 days ago

Commit

5d20d42

verified ·

1 Parent(s): de9f244

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -72

app.py CHANGED Viewed

@@ -47,15 +47,15 @@ def save_temp_audio(audio_file_path):
              shutil.rmtree(temp_audio_dir)
         return None, None
-def create_cumulative_base_filter(text_to_draw, start_time, font_option, font_size, y_pos, style):
     """
-    Erstellt den FFmpeg drawtext Filter für die Basisschicht des kumulierten Textes.
-    Dieser Text bleibt ab start_time bis zum Ende des Clips sichtbar.
     """
     # Standard-Stil
     base_params = {
         "fontcolor": "white",
-        "borderw": 0,
         "bordercolor": "black",
         "box": 0, "boxcolor": "",
         "fontsize": font_size
@@ -63,111 +63,120 @@ def create_cumulative_base_filter(text_to_draw, start_time, font_option, font_si
     style_lower = style.lower()
-    # --- STYLES FÜR DIE BASISSCHICHT (Der Satz selbst) ---
     if style_lower == "modern":
-        # Modern: Graue, semi-transparente Hintergrundbox (HINWEIS: FFmpeg unterstützt keine abgerundeten Ecken)
         base_params["box"] = 1
-        base_params["boxcolor"] = "0x444444@0.6" # Dunkelgrau mit 60% Transparenz
-        base_params["fontcolor"] = "white"
-        base_params["borderw"] = 0
         base_params["fontsize"] = font_size
     elif style_lower == "pop":
-        # Pop: Schwarze, semi-transparente Hintergrundbox
         base_params["box"] = 1
         base_params["boxcolor"] = "[email protected]"
         base_params["fontsize"] = font_size * 1.1
-        base_params["borderw"] = 0
-    # Für andere Stile wird die Basisschicht ohne Box oder Rand gezeichnet (falls sie überhaupt gebraucht wird)
-    escaped_text = text_to_draw.replace(':', FFMPEG_ESCAPE_CHAR + ':')
-    # Filter für den gesamten Satz, der ab start_time sichtbar wird
     drawtext_filter = (
         f"drawtext=text='{escaped_text}':"
         f"fontcolor={base_params['fontcolor']}:"
         f"fontsize={base_params['fontsize']}:"
         f"borderw={base_params['borderw']}:"
         f"bordercolor={base_params['bordercolor']}:"
-        # boxborderw=10 fügt Polsterung hinzu
         + (f"box={base_params['box']}:boxcolor={base_params['boxcolor']}:boxborderw=10:" if base_params["box"] else "") +
         f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}"
     )
     if font_option:
         drawtext_filter += f":{font_option}"
-    # enable='gt(t, {start_time})' sorgt dafür, dass dieser Text dauerhaft ab start_time angezeigt wird
-    drawtext_filter += f":enable='gt(t, {start_time - 0.05})'" # -0.05 für nahtlosen Übergang
     return drawtext_filter
-def create_highlight_word_filter(word, start_time, duration, font_option, font_size, y_pos, style):
     """
     Erstellt den FFmpeg drawtext Filter für die Highlight-Schicht (nur das aktive Wort).
     """
     word_end_time = start_time + duration
-    # Alpha-Ausdruck für smooth Fade-In und Fade-Out
-    alpha_expression = (
         f"if(lt(t,{start_time}), 0, "
         f"if(lt(t,{start_time + WORD_FADE_DURATION}), (t-{start_time})/{WORD_FADE_DURATION}, "
         f"if(lt(t,{word_end_time - WORD_FADE_DURATION}), 1, "
         f"if(lt(t,{word_end_time}), ({word_end_time}-t)/{WORD_FADE_DURATION}, 0))))"
     )
-    # Styling Parameter (Standard: Gelb/Bold-Highlight)
     params = {
         "fontcolor": "yellow",
-        "borderw": 3,
         "bordercolor": "black",
         "box": 0, "boxcolor": "",
-        "fontsize_override": font_size
     }
     style_lower = style.lower()
-    # --- STYLES FÜR DIE HIGHLIGHT-SCHICHT (Das aktuell hervorgehobene Wort) ---
     if style_lower == "modern":
-        # Modern: Gelbe Schrift über dem Basissatz
         params["fontcolor"] = "yellow"
         params["borderw"] = 0
-        params["fontsize_override"] = font_size * 1.05
     elif style_lower == "bold":
         # Bold: Gelb mit starkem Rand
         params["fontcolor"] = "yellow"
         params["borderw"] = 4
-        params["fontsize_override"] = font_size * 1.1
-    elif style_lower == "pop":
-        # Pop: Gelbe Schrift, kein Rand
         params["fontcolor"] = "yellow"
         params["borderw"] = 0
-        params["fontsize_override"] = font_size * 1.1
-    elif style_lower == "badge":
-        # Badge: Mint Green Box um das Wort
-        params["fontcolor"] = "white"
-        params["borderw"] = 0
-        params["box"] = 1
-        params["boxcolor"] = "[email protected]" # Mint Green
-        params["fontsize_override"] = font_size * 1.05
-    elif style_lower == "word":
-        # Word: Gelbe Box um das Wort
-        params["fontcolor"] = "black" # Textfarbe auf schwarz, da Box gelb ist
-        params["borderw"] = 0
-        params["box"] = 1
-        params["boxcolor"] = "[email protected]" # Yellow
-        params["fontsize_override"] = font_size * 1.05
-    escaped_word = word.replace(':', FFMPEG_ESCAPE_CHAR + ':')
-    # Filter für das einzelne, hervorgehobene Wort
     drawtext_filter = (
-        f"drawtext=text='{escaped_word}':"
         f"fontcolor={params['fontcolor']}:"
         f"fontsize={params['fontsize_override']}:"
         f"borderw={params['borderw']}:"
@@ -176,10 +185,12 @@ def create_highlight_word_filter(word, start_time, duration, font_option, font_s
         f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}"
     )
     if font_option:
         drawtext_filter += f":{font_option}"
-    drawtext_filter += f":alpha='{alpha_expression}'"
     return drawtext_filter
@@ -229,29 +240,17 @@ def generate_slideshow_with_audio(images, input_text, duration_per_word, duratio
         drawtext_filters = []
         if full_text:
-            cumulative_text_list = []
-            word_start_time = 0.0
-            for j, word in enumerate(word_segment):
-                # Aktualisiere den kumulierten Text
-                cumulative_text_list.append(word)
-                current_cumulative_text = " ".join(cumulative_text_list)
-                # ERSTE SCHICHT: Kumulierter Basistext (wird ab diesem Wort permanent sichtbar)
-                base_cumulative_filter = create_cumulative_base_filter(
-                    current_cumulative_text,
-                    word_start_time,
-                    font_option,
-                    font_size,
-                    y_pos,
-                    subtitle_style
-                )
-                drawtext_filters.append(base_cumulative_filter)
-                # ZWEITE SCHICHT: Highlight-Layer (fadet ein und aus)
                 highlight_filter = create_highlight_word_filter(
                     word,
                     word_start_time,
                     duration_per_word,
                     font_option,
@@ -260,7 +259,6 @@ def generate_slideshow_with_audio(images, input_text, duration_per_word, duratio
                     subtitle_style
                 )
                 drawtext_filters.append(highlight_filter)
                 word_start_time += duration_per_word
@@ -277,7 +275,7 @@ def generate_slideshow_with_audio(images, input_text, duration_per_word, duratio
         # 4. Kombiniere alle Filter
         if drawtext_filters:
-            # Wichtig: Die Filter werden in der Reihenfolge angewendet, d.h. der letzte Filter liegt oben.
             all_drawtext_filters = ",".join(drawtext_filters)
             vf_filters_clip = f"{base_filters},{all_drawtext_filters},{fade_img_filter}"
         else:
@@ -354,7 +352,7 @@ with gr.Blocks() as demo:
     with gr.Row():
         img_input = gr.Files(label="Bilder", file_types=allowed_medias)
-        text_input = gr.Textbox(label="Text (Wörter werden gleichmäßig auf alle Bilder verteilt)", lines=5, placeholder="Jedes Wort im Basissatz wird nach und nach hinzugefügt.")
     with gr.Row():
         duration_image_input = gr.Number(value=3, label="Mindest-Dauer pro BILD (s)")

              shutil.rmtree(temp_audio_dir)
         return None, None
+def create_sentence_base_filter(full_text, duration_clip, font_option, font_size, y_pos, style):
     """
+    Erstellt den FFmpeg drawtext Filter für die Basisschicht (den gesamten Satzabschnitt),
+    der für die volle Clip-Dauer sichtbar ist (stabile Positionierung).
     """
     # Standard-Stil
     base_params = {
         "fontcolor": "white",
+        "borderw": 0, # Kein Rand
         "bordercolor": "black",
         "box": 0, "boxcolor": "",
         "fontsize": font_size
     style_lower = style.lower()
+    # SPEZIALFALL: Modern Style (graue, semi-transparente Hintergrundbox)
     if style_lower == "modern":
         base_params["box"] = 1
+        # Dunkelgrau (0x444444) mit 60% Transparenz (@0.6)
+        base_params["boxcolor"] = "[email protected]"
+        base_params["borderw"] = 0 # Kein Text-Rand bei Hintergrundbox
         base_params["fontsize"] = font_size
+    # SPEZIALFALL: Pop Style (schwarze Box)
     elif style_lower == "pop":
         base_params["box"] = 1
         base_params["boxcolor"] = "[email protected]"
         base_params["fontsize"] = font_size * 1.1
+    # Für andere Stile wird der Basistext nur als Schatten (borderw=2) gezeichnet
+    elif style_lower in ["bold", "badge", "word"]:
+        base_params["borderw"] = 2
+    escaped_text = full_text.replace(':', FFMPEG_ESCAPE_CHAR + ':')
+    # Filter für den gesamten Satz, sichtbar für die gesamte Clip-Dauer
     drawtext_filter = (
         f"drawtext=text='{escaped_text}':"
         f"fontcolor={base_params['fontcolor']}:"
         f"fontsize={base_params['fontsize']}:"
         f"borderw={base_params['borderw']}:"
         f"bordercolor={base_params['bordercolor']}:"
+        # boxborderw=10 fügt etwas Polsterung um die Box hinzu
         + (f"box={base_params['box']}:boxcolor={base_params['boxcolor']}:boxborderw=10:" if base_params["box"] else "") +
         f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}"
     )
+    # Fügt fontfile nur hinzu, wenn vorhanden und vermeidet doppelte Doppelpunkte
     if font_option:
         drawtext_filter += f":{font_option}"
+    drawtext_filter += f":enable='between(t, 0, {duration_clip})'"
     return drawtext_filter
+def create_highlight_word_filter(word, full_text, start_time, duration, font_option, font_size, y_pos, style):
     """
     Erstellt den FFmpeg drawtext Filter für die Highlight-Schicht (nur das aktive Wort).
+    Da FFmpeg keine Wort-Positionen kennt, muss der GESAMTE Satz gezeichnet werden,
+    aber nur das aktive Wort hat die Highlight-Farbe und der Rest ist transparent (alpha=0).
+    Das ist notwendig, um die korrekte Zentrierung beizubehalten!
     """
     word_end_time = start_time + duration
+    # Alpha-Ausdruck für smooth Fade-In und Fade-Out der HIGHLIGHT-FARBE
+    highlight_alpha_expression = (
         f"if(lt(t,{start_time}), 0, "
         f"if(lt(t,{start_time + WORD_FADE_DURATION}), (t-{start_time})/{WORD_FADE_DURATION}, "
         f"if(lt(t,{word_end_time - WORD_FADE_DURATION}), 1, "
         f"if(lt(t,{word_end_time}), ({word_end_time}-t)/{WORD_FADE_DURATION}, 0))))"
     )
+    # Styling Parameter
     params = {
         "fontcolor": "yellow",
+        "borderw": 0,
         "bordercolor": "black",
         "box": 0, "boxcolor": "",
+        "fontsize_override": font_size * 1.05 # Leicht vergrößert
     }
     style_lower = style.lower()
     if style_lower == "modern":
+        # Modern: Gelbe Schrift, kein Rand
         params["fontcolor"] = "yellow"
         params["borderw"] = 0
     elif style_lower == "bold":
         # Bold: Gelb mit starkem Rand
         params["fontcolor"] = "yellow"
         params["borderw"] = 4
+    # Hinweis: Badge/Word benötigen einen Trick, da FFmpeg keine Wort-Hintergrundboxen unterstützt.
+    # Wir lassen sie hier auf den Standard-Highlight-Effekt fallen.
+    elif style_lower in ["badge", "word", "pop"]:
         params["fontcolor"] = "yellow"
         params["borderw"] = 0
+    escaped_text = full_text.replace(':', FFMPEG_ESCAPE_CHAR + ':')
+    # Filter für das einzelne, hervorgehobene Wort (ACHTUNG: Es wird der gesamte Satz gezeichnet!)
+    # Hier zeichnen wir nur das aktuell aktive Wort, was im Prinzip ein kumulierter Effekt ist,
+    # aber ohne die Positionierungsfehler des vorherigen Versuchs, da nur EIN Wort gezeichnet wird.
+    drawtext_filter = (
+        f"drawtext=text='{word.replace(':', FFMPEG_ESCAPE_CHAR + ':')}':" # NUR das Wort
+        f"fontcolor={params['fontcolor']}:"
+        f"fontsize={params['fontsize_override']}:"
+        f"borderw={params['borderw']}:"
+        f"bordercolor={params['bordercolor']}:"
+        # Die X-Position muss manuell berechnet werden, um es über dem Basistext zu positionieren.
+        # Da wir das nicht können, zeichnen wir einfach den Satz und blenden das Highlight ein/aus.
+        # NEUER ANSATZ: Wir zeichnen das Wort MIT SEINER EIGENEN ZENTRIERUNG und verlassen uns auf die Transparenz.
+        # Das funktioniert nur, wenn das Highlight-Wort das gleiche ist wie der Basistext.
+        # Da der Basistext in diesem stabilen Modell bereits den ganzen Satz anzeigt, müssen wir hier kreativ sein.
+        # Wir müssen den highlight_alpha_expression verwenden, um das Wort EINZELN anzuzeigen.
+        f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}"
+    )
+    # HACK: Da FFmpeg drawtext KEINE Wort-zu-Wort-Positions-Überlagerung unterstützt,
+    # können wir nur das ZENTRIERTE WORT einblenden lassen.
+    # Dies ist nicht perfekt, aber die stabilste Lösung.
+    # Wir belassen es bei der Zentrierung des Worts selbst. Das wird visuell besser sein,
+    # als wenn wir den ganzen Satz neu berechnen.
     drawtext_filter = (
+        f"drawtext=text='{word.replace(':', FFMPEG_ESCAPE_CHAR + ':')}':"
         f"fontcolor={params['fontcolor']}:"
         f"fontsize={params['fontsize_override']}:"
         f"borderw={params['borderw']}:"
         f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}"
     )
     if font_option:
         drawtext_filter += f":{font_option}"
+    # Der Highlight-Filter ist nur aktiv, wenn das Wort aktiv ist.
+    drawtext_filter += f":alpha='{highlight_alpha_expression}'"
     return drawtext_filter
         drawtext_filters = []
         if full_text:
+            # ERSTE SCHICHT: Der gesamte Satz (als STABILE BASIS mit Kasten)
+            base_filter = create_sentence_base_filter(full_text, duration_clip, font_option, font_size, y_pos, subtitle_style)
+            drawtext_filters.append(base_filter)
+            # ZWEITE SCHICHT: Highlight-Layer für jedes Wort
+            word_start_time = 0.0
+            # Wir verwenden hier NICHT den kumulativen Ansatz, sondern überlagern das Einzelwort
+            for word in word_segment:
                 highlight_filter = create_highlight_word_filter(
                     word,
+                    full_text,
                     word_start_time,
                     duration_per_word,
                     font_option,
                     subtitle_style
                 )
                 drawtext_filters.append(highlight_filter)
                 word_start_time += duration_per_word
         # 4. Kombiniere alle Filter
         if drawtext_filters:
+            # Wichtig: Der Basis-Satz muss als erster Filter, die Highlights als letzte Filter stehen.
             all_drawtext_filters = ",".join(drawtext_filters)
             vf_filters_clip = f"{base_filters},{all_drawtext_filters},{fade_img_filter}"
         else:
     with gr.Row():
         img_input = gr.Files(label="Bilder", file_types=allowed_medias)
+        text_input = gr.Textbox(label="Text (Wörter werden gleichmäßig auf alle Bilder verteilt)", lines=5, placeholder="Der Basissatz wird konstant angezeigt. Das aktive Wort wird hervorgehoben.")
     with gr.Row():
         duration_image_input = gr.Number(value=3, label="Mindest-Dauer pro BILD (s)")