video-ffmpeg

Sleeping

App Files Files Community

Tim13ekd commited on 7 days ago

Commit

fd9d93c

verified ·

1 Parent(s): b6a8e09

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -78

app.py CHANGED Viewed

@@ -3,9 +3,6 @@ import tempfile
 from pathlib import Path
 import uuid
 import subprocess
-import requests
-import base64
-import math
 import shutil
 import io  # Für NamedString-Handling
 import shlex  # Für sicheres Escapen von Text
@@ -14,8 +11,6 @@ import shlex  # Für sicheres Escapen von Text
 allowed_medias = [".png", ".jpg", ".jpeg", ".bmp", ".gif", ".tiff"]
 allowed_audios = [".mp3", ".wav", ".m4a", ".ogg"]
-API_URL = "https://text.pollinations.ai/openai"
 def save_temp_audio(audio_file):
     """
     Speichert die hochgeladene Datei sicher mit korrekter Endung in einem temporären Verzeichnis.
@@ -40,38 +35,7 @@ def save_temp_audio(audio_file):
     else:
         raise ValueError("Das übergebene Audio ist kein gültiges Dateiformat oder NamedString.")
-def convert_to_wav(audio_path):
-    wav_path = Path(audio_path).with_suffix(".wav")
-    cmd = ["ffmpeg", "-y", "-i", str(audio_path), "-ar", "16000", "-ac", "1", str(wav_path)]
-    subprocess.run(cmd, check=True, capture_output=True, text=True)
-    return wav_path
-def transcribe_audio(audio_file):
-    temp_audio = save_temp_audio(audio_file)
-    wav_file = convert_to_wav(temp_audio)
-    with open(wav_file, "rb") as f:
-        audio_data = base64.b64encode(f.read()).decode()
-    payload = {
-        "model": "openai-audio",
-        "messages": [{
-            "role": "user",
-            "content": [
-                {"type": "text", "text": "Transcribe this audio:"},
-                {"type": "input_audio", "input_audio": {"data": audio_data, "format": "wav"}}
-            ]
-        }]
-    }
-    try:
-        response = requests.post(API_URL, json=payload)
-        response.raise_for_status()
-    except requests.RequestException as e:
-        return None, f"❌ API Fehler: {e}"
-    result = response.json()
-    text = result['choices'][0]['message']['content']
-    return text
-def generate_slideshow_with_audio(images, audio_file, duration_per_image=3, y_pos=0.5, fade_duration=0.7, font_size=60, speed=1.0):
     if not images:
         return None, "❌ Keine Bilder ausgewählt"
@@ -79,22 +43,17 @@ def generate_slideshow_with_audio(images, audio_file, duration_per_image=3, y_po
     temp_dir = tempfile.mkdtemp()
     clips = []
-    if audio_file:
-        transcript, err = transcribe_audio(audio_file)
-        if err:
-            return None, err
-        words = transcript.split()
-        total_words = len(words)
-        segments_per_image = math.ceil(total_words / len(images))
-        texts = []
-        for i in range(len(images)):
-            start = i * segments_per_image
-            end = min((i + 1) * segments_per_image, total_words)
-            texts.append(" ".join(words[start:end]))
-        temp_audio_file = save_temp_audio(audio_file)
-    else:
-        texts = [""] * len(images)
-        temp_audio_file = None
     for i, img_path in enumerate(images):
         img_path = Path(img_path.name)  # Gradio liefert temporäre Dateipfade
@@ -154,34 +113,17 @@ def generate_slideshow_with_audio(images, audio_file, duration_per_image=3, y_po
     except subprocess.CalledProcessError as e:
         return None, f"❌ FFmpeg Concat Fehler:\n{e.stderr}"
-    if temp_audio_file:
-        final_output = Path(temp_dir) / f"slideshow_audio_{uuid.uuid4().hex}.mp4"
-        cmd_audio = [
-            "ffmpeg",
-            "-y",
-            "-i", str(output_file),
-            "-i", str(temp_audio_file),
-            "-c:v", "copy",
-            "-c:a", "aac",
-            "-shortest",
-            str(final_output)
-        ]
-        try:
-            subprocess.run(cmd_audio, check=True, capture_output=True, text=True)
-            return str(final_output), "✅ Slideshow mit Audio und automatischen Untertiteln erstellt"
-        except subprocess.CalledProcessError as e:
-            return None, f"❌ FFmpeg Audio Merge Fehler:\n{e.stderr}"
-    return str(output_file), "✅ Slideshow erstellt (ohne Audio)"
 # Gradio UI
 with gr.Blocks() as demo:
-    gr.Markdown("# Slideshow mit Audio & automatischen Untertiteln")
     img_input = gr.Files(label="Bilder auswählen (mehrere)", file_types=allowed_medias)
-    audio_input = gr.File(
-        label="Audio hinzufügen (MP3, WAV, M4A, OGG ... optional)",
-        file_types=allowed_audios
     )
     duration_input = gr.Number(value=3, label="Dauer pro Bild in Sekunden", precision=1)
     fade_input = gr.Number(value=0.7, label="Fade Dauer in Sekunden", precision=1)
@@ -195,8 +137,8 @@ with gr.Blocks() as demo:
     btn = gr.Button("Video erstellen")
     btn.click(
         fn=generate_slideshow_with_audio,
-        inputs=[img_input, audio_input, duration_input, ypos_input, fade_input, font_size_input, speed_input],
         outputs=[out_video, status]
     )
-demo.launch()

 from pathlib import Path
 import uuid
 import subprocess
 import shutil
 import io  # Für NamedString-Handling
 import shlex  # Für sicheres Escapen von Text
 allowed_medias = [".png", ".jpg", ".jpeg", ".bmp", ".gif", ".tiff"]
 allowed_audios = [".mp3", ".wav", ".m4a", ".ogg"]
 def save_temp_audio(audio_file):
     """
     Speichert die hochgeladene Datei sicher mit korrekter Endung in einem temporären Verzeichnis.
     else:
         raise ValueError("Das übergebene Audio ist kein gültiges Dateiformat oder NamedString.")
+def generate_slideshow_with_audio(images, input_text, duration_per_image=3, y_pos=0.5, fade_duration=0.7, font_size=60, speed=1.0):
     if not images:
         return None, "❌ Keine Bilder ausgewählt"
     temp_dir = tempfile.mkdtemp()
     clips = []
+    # Text in Segmente aufteilen
+    words = input_text.split()
+    total_words = len(words)
+    segments_per_image = max(1, total_words // len(images))  # Sicherstellen, dass mindestens 1 Segment pro Bild
+    texts = []
+    for i in range(len(images)):
+        start = i * segments_per_image
+        end = min((i + 1) * segments_per_image, total_words)
+        texts.append(" ".join(words[start:end]))
+    temp_audio_file = None  # Wir gehen davon aus, dass das Audio optional ist.
     for i, img_path in enumerate(images):
         img_path = Path(img_path.name)  # Gradio liefert temporäre Dateipfade
     except subprocess.CalledProcessError as e:
         return None, f"❌ FFmpeg Concat Fehler:\n{e.stderr}"
+    return str(output_file), "✅ Slideshow mit Text erstellt"
 # Gradio UI
 with gr.Blocks() as demo:
+    gr.Markdown("# Slideshow mit Manuellem Text")
     img_input = gr.Files(label="Bilder auswählen (mehrere)", file_types=allowed_medias)
+    text_input = gr.Textbox(
+        label="Text eingeben",
+        placeholder="Gib hier den Text ein, der in den Bildern angezeigt werden soll",
+        lines=5
     )
     duration_input = gr.Number(value=3, label="Dauer pro Bild in Sekunden", precision=1)
     fade_input = gr.Number(value=0.7, label="Fade Dauer in Sekunden", precision=1)
     btn = gr.Button("Video erstellen")
     btn.click(
         fn=generate_slideshow_with_audio,
+        inputs=[img_input, text_input, duration_input, ypos_input, fade_input, font_size_input, speed_input],
         outputs=[out_video, status]
     )
+demo.launch()