Video-Generator: Mehr Flexibilität bei Asset-Delivery
OpenClaws Video-Generator erweitert seine Capabilities: URL-only Output, adaptive Aspect-Ratio, Reference-Audio und mehr Image-Inputs.
OpenClaw’s Video-Generator-Tool hat in der letzten Release-Runde mehrere Erweiterungen erhalten. Im Kern geht es um mehr Kontrolle für Provider und flexiblere Asset-Auslieferung, ohne große Dateien unnötig lokal zu verarbeiten. Für Entwickler und Agenten-Builder bedeutet das: kürzere Iterationsschleifen, präzisere Vorgaben und einfachere Einbindung in automatisierte Workflows.
URL-only Output
Speicher entlasten, Workflows beschleunigen
Bisher hat das video_generate-Tool generierte Videos als lokale Dateien ausgeliefert. Mit der neuen URL-only Delivery kann ein Provider entscheiden, das Asset lediglich als URL zurückzugeben – etwa wenn es bereits auf einem CDN liegt oder das Video-Backend ohnehin eine persistente Abruf-URL bereitstellt. Für Agenten, die Videos nur weiterleiten oder in externen Systemen verarbeiten, entfällt damit der Zwischenschritt aus lokalem Speichern und erneutem Hochladen.
In der Praxis: Ein Telegram-Bot erstellt täglich einen kurzen Recap-Video-Clip für ein Team. Ohne URL-only Delivery müsste das generierte Video erst lokal gespeichert und anschließend per message-Tool als Media-Attachment hochgeladen werden. Mit URL-only Delivery kann der Provider direkt eine Cloud-Storage-URL liefern, die an Telegram übergeben wird – ein Schritt weniger und weniger I/O-Last auf dem Host-System.
Adaptive Aspect-Ratio und mehr Image-Inputs
Die Video-Generation unterstützt jetzt auch adaptive Aspect-Ratios. Statt nur mit festen Verhältnissen wie 16:9 oder 1:1 zu arbeiten, kann ein Provider ein adaptive-Flag übernehmen und das Seitenverhältnis intern bestimmen – etwa anhand der Referenzbilder. Gleichzeitig wurde die maximale Anzahl an Input-Images von 5 auf 9 erhöht. Dadurch lassen sich komplexere Szenen mit mehr Referenz-Frames steuern, ohne dass der Agent Bilder vorher zusammenstückeln muss.
Dazu kommt das neue Feld imageRoles: Jedes übergebene Bild kann eine optionale Rolle wie first_frame oder last_frame erhalten, die der Provider interpretieren kann. Das erlaubt präzisere Vorgaben, ohne dass der Core die Semantik selbst abbilden muss – er leitet die Rolle lediglich weiter.
Reference-Audio: Hintergrundmusik und Sound-Design einbinden
Eine der auffälligsten Neuerungen ist die Unterstützung für Reference-Audio. Über audioRef oder audioRefs können bis zu drei Audio-Assets als Referenz übergeben werden, etwa ein Musik-Track für Hintergrund-Sound oder eine Sprachaufnahme, die im Video unterlegt werden soll. Provider, die Audio-Inputs unterstützen, müssen dies über maxInputAudios in ihren Capabilities deklarieren; andernfalls lehnt die Validierung die Anfrage ab.
Auf einen Blick:
- URL-only Delivery spart lokalen Speicher und reduziert I/O für reine Weiterleitungs-Workflows.
- Adaptive Aspect-Ratio und bis zu 9 Input-Images geben Providern mehr Freiheit, Ergebnisse aus den Vorgaben abzuleiten.
- Reference-Audio erlaubt die Einbindung von Musik oder Sprach-Tracks.
- Provider-Options ermöglichen Provider-spezifische Einstellungen, ohne das Core-Tooling für jedes Flag zu erweitern.
Provider-Options: Custom-Einstellungen durchreichen
Damit Provider eigene Parameter unterstützen können, wurde providerOptions eingeführt – ein JSON-Objekt, das unverändert an den Provider durchgereicht wird. So kann ein Provider beispielsweise Stil-Presets oder Qualitäts-Flags direkt über die Tool-Call-Schnittstelle empfangen, ohne dass OpenClaw jedes mögliche Flag vorab kennen muss. Das macht das Tooling erweiterbarer, ohne den Core mit Provider-Sonderfällen zu überladen.
Was das für Agenten-Builder bedeutet
Die Erweiterungen zielen darauf ab, Video-Generation besser in automatisierte Pipelines einzubetten. Wenn ein Agent regelmäßig Videos generiert – etwa für Social-Media-Posts, interne Reports oder Tutorial-Clips –, lässt sich nun genauer steuern, welche Referenz-Assets verwendet werden, ob Audio eingebunden wird und wie das Ergebnis ausgeliefert wird. Die URL-only-Option ist besonders relevant für Cloud-native Setups, in denen Videos vor allem zwischen Diensten weitergereicht werden.
Gleichzeitig bleibt die Validierung streng: Provider müssen ihre Capabilities deklarieren, etwa maximale Zahlen für Images und Audios oder unterstützte Aspect-Ratios. Das Core-Tooling prüft Anfragen dagegen. So lassen sich Fehler früher abfangen, wenn ein Provider bestimmte Input-Kombinationen nicht unterstützt.
Ausblick: Mehr Granularität, weniger Boilerplate
Mit dieser Release-Runde baut OpenClaw die Video-Generation als Werkzeug für Agenten-Builder weiter aus. Die neuen Felder (imageRoles, inputAudios, providerOptions) geben mehr Kontrolle, ohne die Komplexität im Core unnötig zu erhöhen. Für Entwickler, die auf Video-Generierung setzen, heißt das: weniger Boilerplate-Code für Workarounds, mehr Granularität in den Vorgaben und schnellere Iterationen bei der Content-Produktion.
Transparenz
Agentenlog nutzt KI-Assistenz für Recherche, Struktur und Entwurf. Inhaltliche Auswahl, Einordnung und Veröffentlichung liegen redaktionell bei nexus; Quellen und Fakten werden vor Veröffentlichung geprüft.
Quellen
Das könnte dich auch interessieren
OpenClaw macht Gruppenchats vorsichtiger und Follow-ups natürlicher
OpenClaw trennt Gruppenchat-Sicherheit, sichtbare Antworten und Follow-ups sauberer. Das ist Betriebslogik für Agenten in echten Chat-Räumen.
OpenClaw 2026.5.2: Stabilität ist gerade das eigentliche Feature
OpenClaw 2026.5.2 bringt Grok 4.3, robustere Plugin-Updates und viele Reparaturen. Der eigentliche Punkt: Stabilität zählt gerade mehr als Feature-Hype.
OpenClaw macht Stimme und Control UI alltagstauglicher
OpenClaw 2026.4.25-beta.4 bündelt ein großes TTS-Upgrade mit PWA- und Web-Push-Funktionen für die Control UI. Der Release zeigt, dass Agentenbedienung nicht nur im Terminal stattfinden muss.