Video-Generator: Mehr Flexibilität bei Asset-Delivery

OpenClaw’s Video-Generator-Tool hat in der letzten Release-Runde mehrere Erweiterungen erhalten. Im Kern geht es um mehr Kontrolle für Provider und flexiblere Asset-Auslieferung, ohne große Dateien unnötig lokal zu verarbeiten. Für Entwickler und Agenten-Builder bedeutet das: kürzere Iterationsschleifen, präzisere Vorgaben und einfachere Einbindung in automatisierte Workflows.

URL-only Output

Speicher entlasten, Workflows beschleunigen

Bisher hat das video_generate-Tool generierte Videos als lokale Dateien ausgeliefert. Mit der neuen URL-only Delivery kann ein Provider entscheiden, das Asset lediglich als URL zurückzugeben – etwa wenn es bereits auf einem CDN liegt oder das Video-Backend ohnehin eine persistente Abruf-URL bereitstellt. Für Agenten, die Videos nur weiterleiten oder in externen Systemen verarbeiten, entfällt damit der Zwischenschritt aus lokalem Speichern und erneutem Hochladen.

In der Praxis: Ein Telegram-Bot erstellt täglich einen kurzen Recap-Video-Clip für ein Team. Ohne URL-only Delivery müsste das generierte Video erst lokal gespeichert und anschließend per message-Tool als Media-Attachment hochgeladen werden. Mit URL-only Delivery kann der Provider direkt eine Cloud-Storage-URL liefern, die an Telegram übergeben wird – ein Schritt weniger und weniger I/O-Last auf dem Host-System.

Adaptive Aspect-Ratio und mehr Image-Inputs

Die Video-Generation unterstützt jetzt auch adaptive Aspect-Ratios. Statt nur mit festen Verhältnissen wie 16:9 oder 1:1 zu arbeiten, kann ein Provider ein adaptive-Flag übernehmen und das Seitenverhältnis intern bestimmen – etwa anhand der Referenzbilder. Gleichzeitig wurde die maximale Anzahl an Input-Images von 5 auf 9 erhöht. Dadurch lassen sich komplexere Szenen mit mehr Referenz-Frames steuern, ohne dass der Agent Bilder vorher zusammenstückeln muss.

Dazu kommt das neue Feld imageRoles: Jedes übergebene Bild kann eine optionale Rolle wie first_frame oder last_frame erhalten, die der Provider interpretieren kann. Das erlaubt präzisere Vorgaben, ohne dass der Core die Semantik selbst abbilden muss – er leitet die Rolle lediglich weiter.

Reference-Audio: Hintergrundmusik und Sound-Design einbinden

Eine der auffälligsten Neuerungen ist die Unterstützung für Reference-Audio. Über audioRef oder audioRefs können bis zu drei Audio-Assets als Referenz übergeben werden, etwa ein Musik-Track für Hintergrund-Sound oder eine Sprachaufnahme, die im Video unterlegt werden soll. Provider, die Audio-Inputs unterstützen, müssen dies über maxInputAudios in ihren Capabilities deklarieren; andernfalls lehnt die Validierung die Anfrage ab.

Auf einen Blick:

URL-only Delivery spart lokalen Speicher und reduziert I/O für reine Weiterleitungs-Workflows.
Adaptive Aspect-Ratio und bis zu 9 Input-Images geben Providern mehr Freiheit, Ergebnisse aus den Vorgaben abzuleiten.
Reference-Audio erlaubt die Einbindung von Musik oder Sprach-Tracks.
Provider-Options ermöglichen Provider-spezifische Einstellungen, ohne das Core-Tooling für jedes Flag zu erweitern.

Provider-Options: Custom-Einstellungen durchreichen

Damit Provider eigene Parameter unterstützen können, wurde providerOptions eingeführt – ein JSON-Objekt, das unverändert an den Provider durchgereicht wird. So kann ein Provider beispielsweise Stil-Presets oder Qualitäts-Flags direkt über die Tool-Call-Schnittstelle empfangen, ohne dass OpenClaw jedes mögliche Flag vorab kennen muss. Das macht das Tooling erweiterbarer, ohne den Core mit Provider-Sonderfällen zu überladen.

Was das für Agenten-Builder bedeutet

Die Erweiterungen zielen darauf ab, Video-Generation besser in automatisierte Pipelines einzubetten. Wenn ein Agent regelmäßig Videos generiert – etwa für Social-Media-Posts, interne Reports oder Tutorial-Clips –, lässt sich nun genauer steuern, welche Referenz-Assets verwendet werden, ob Audio eingebunden wird und wie das Ergebnis ausgeliefert wird. Die URL-only-Option ist besonders relevant für Cloud-native Setups, in denen Videos vor allem zwischen Diensten weitergereicht werden.

Gleichzeitig bleibt die Validierung streng: Provider müssen ihre Capabilities deklarieren, etwa maximale Zahlen für Images und Audios oder unterstützte Aspect-Ratios. Das Core-Tooling prüft Anfragen dagegen. So lassen sich Fehler früher abfangen, wenn ein Provider bestimmte Input-Kombinationen nicht unterstützt.

Ausblick: Mehr Granularität, weniger Boilerplate

Mit dieser Release-Runde baut OpenClaw die Video-Generation als Werkzeug für Agenten-Builder weiter aus. Die neuen Felder (imageRoles, inputAudios, providerOptions) geben mehr Kontrolle, ohne die Komplexität im Core unnötig zu erhöhen. Für Entwickler, die auf Video-Generierung setzen, heißt das: weniger Boilerplate-Code für Workarounds, mehr Granularität in den Vorgaben und schnellere Iterationen bei der Content-Produktion.

Video-Generator: Mehr Flexibilität bei Asset-Delivery

URL-only Output

Speicher entlasten, Workflows beschleunigen

Adaptive Aspect-Ratio und mehr Image-Inputs

Reference-Audio: Hintergrundmusik und Sound-Design einbinden

Provider-Options: Custom-Einstellungen durchreichen

Was das für Agenten-Builder bedeutet

Ausblick: Mehr Granularität, weniger Boilerplate

Transparenz

Quellen

Das könnte dich auch interessieren

OpenClaw macht Gruppenchats vorsichtiger und Follow-ups natürlicher

OpenClaw 2026.5.2: Stabilität ist gerade das eigentliche Feature

OpenClaw macht Stimme und Control UI alltagstauglicher