Zum Inhalt springen
openclaw · 5 min Lesezeit

OpenClaw macht Stimme und Control UI alltagstauglicher

OpenClaw 2026.4.25-beta.4 bündelt ein großes TTS-Upgrade mit PWA- und Web-Push-Funktionen für die Control UI. Der Release zeigt, dass Agentenbedienung nicht nur im Terminal stattfinden muss.

openclaw tts control-ui browser telemetrie

OpenClaw 2026.4.25-beta.4 ist laut GitHub-Release ein Beta-Release mit ungewöhnlich breiter Oberfläche: mehr Text-to-Speech, mehr Control UI, mehr Browser-Robustheit und deutlich mehr Diagnose-Infrastruktur. Veröffentlicht wurde die Version laut GitHub am 26. April 2026; sie ist als Prerelease markiert und zielt sichtbar auf Bedienbarkeit im Alltag statt nur auf neue Modell-Anbindung.

Der Schwerpunkt liegt bei Sprachantworten. Die Release Notes nennen ein „full TTS upgrade“ für Voice Replies und führen unter anderem /tts latest, chat-bezogene Auto-TTS-Schalter, Personas, Overrides pro Agent und Account sowie zusätzliche Provider-Abdeckung auf. Dazu kommen Azure Speech, Xiaomi, Local CLI, Inworld, Volcengine und ElevenLabs v3. Das ist kein einzelner Komfortschalter, sondern eine Neuordnung der Frage, wann ein Agent schreibt und wann er spricht.

Für Agenten-Setups, die ohnehin über Telegram, Discord, Feishu, QQBot oder andere Kanäle laufen, ist genau dieser Punkt relevant. Text-to-Speech ist dort nicht nur Ausgabeformat, sondern Bedienmodus: Ein Agent kann eine aktuelle Antwort vorlesen, kanalweise anders klingen oder in einem Chat automatisch Sprache nutzen, ohne gleich das globale Setup umzubauen.

Stimme wird kontextabhängiger

Die konkreteste Änderung ist /tts latest. Laut Release Notes liest der Befehl die jüngste Antwort vor und nutzt Duplicate Suppression, damit dieselbe Antwort nicht mehrfach als Voice Note erzeugt wird. Ergänzt wird das durch /tts chat on|off|default, also einen Auto-TTS-Schalter pro laufendem Chat. Damit wird Sprache nicht als globale Systemeinstellung behandelt, sondern als Entscheidung im jeweiligen Gespräch.

OpenClaw erweitert außerdem die Override-Logik. Für Feishu- und QQBot-Accounts können TTS-Einstellungen aus channels.<channel>.accounts.<id>.tts über globale und agentenspezifische TTS-Konfiguration gelegt werden. Zusätzlich dürfen Einträge in agents.list[].tts die globale messages.tts-Konfiguration überschreiben. Wichtig ist dabei weniger der einzelne Feldname als die Richtung: Stimme wird näher an Agent, Account und Kanal gezogen.

Die Release Notes nennen auch bestehende TTS-Kommandos, die diese aktive Voice- und Provider-Auswahl berücksichtigen: /tts audio, /tts status und das tts-Agenten-Tool. Provider-Zugangsdaten und Präferenzen bleiben dabei in der bestehenden TTS-Konfigurationsfläche. Das klingt trocken, verhindert aber genau die Art von Konfigurationswildwuchs, die Sprachfeatures sonst schnell unwartbar macht.

Neue Provider, neue Ausgabeformen

Azure Speech kommt als gebündelter TTS-Provider dazu. Die Release Notes erwähnen Speech-Resource-Authentifizierung, Voice Listing, SSML Escaping, natives Ogg/Opus für Voice Notes und Telephony Output. Gerade Ogg/Opus ist für Messenger-Workflows wichtig, weil viele Chat-Plattformen Voice Notes nicht wie normale Audiodateien behandeln.

ElevenLabs v3, Volcengine, Inworld, Xiaomi und ein Local-CLI-Provider erweitern die Auswahl zusätzlich. Das macht OpenClaw nicht automatisch zu einer Audio-Plattform, aber es nimmt TTS aus der Nische „eine Stimme, ein Provider, eine globale Einstellung“. Wer mehrere Agenten mit unterschiedlichen Rollen betreibt, kann Stimmen dadurch sauberer trennen.

Die Kehrseite bleibt: Mehr Provider bedeuten mehr Credentials, mehr Kostenmodelle und mehr Fehlerflächen. Der Release löst diese Governance-Fragen nicht weg. Er schafft aber die technische Grundlage, damit Sprachantworten nicht wie ein nachträgliches Plugin-Gimmick wirken.

Control UI rückt näher an eine App

Neben TTS bekommt die Control UI ein eigenes Paket an Verbesserungen. Die Release Notes nennen PWA-Installationssupport und Web-Push-Benachrichtigungen für Gateway Chat. Damit bewegt sich die Oberfläche näher an eine installierbare App, ohne dass OpenClaw dafür eine separate Desktop-Anwendung braucht.

Für Nutzer, die Agenten nicht permanent im Terminal beobachten wollen, ist das praktisch. Eine Progressive Web App kann auf dem Gerät wie eine App gestartet werden; Web Push kann neue Chat-Ereignisse sichtbarer machen. Entscheidend ist nicht der Begriff PWA, sondern die Verschiebung: Agentenbedienung wird mobiler, direkter und weniger abhängig von einer offenen Shell.

Der Release nennt außerdem Setup-Arbeiten rund um Crestodian, TUI-Setup, Kontextmodus-Auswahl, Startup Progress Indicators und eine kürzere Startbegrüßung. Das klingt nach Kleinkram, ist aber genau die Schicht, an der lokale Agentensysteme oft scheitern. Wenn Einrichtung, Reparatur eines Setups oder Auswahl des Kontextmodus hakelig sind, wirkt das stärkste Modell dahinter egal.

Browser und Diagnose werden robuster

OpenClaw arbeitet auch an Browser-Automation. Genannt werden sicherere Tab-URLs in Agentenantworten, ein CDP-nativer Role-Snapshot-Fallback mit iframe-bewussten Referenzen, Cursor-Clickable Detection, Target-Attach-Vorbereitung und openclaw browser doctor --deep für Live-Snapshot-Probing. Zusätzlich gibt es openclaw browser start --headless als einmaligen Startmodus für einen lokal verwalteten Browser.

Das ist für Agentenarbeit wichtiger, als es auf den ersten Blick klingt. Browser-Automation bricht selten an der großen Idee, sondern an Details: iframes, langsame Hosts, unklare Ziel-Tabs, instabile Snapshots. Der Release adressiert genau diese Kanten und erlaubt laut Notes auch höhere CDP-Readiness-Timeouts für langsamere Hosts wie Raspberry Pi.

Parallel baut OpenClaw seine Diagnose-Schicht aus. Die Release Notes nennen mehr OpenTelemetry-Abdeckung für Model Calls, Token Usage, Tool Loops, Harness Runs, Exec-Prozesse, ausgehende Delivery, Kontextzusammenbau und Memory Pressure. Dazu kommen bounded low-cardinality attributes, ein Prometheus-Diagnostics-Plugin mit geschützter Gateway-Scrape-Route sowie Telemetrie für Agent-Harness-Lebenszyklen.

Das ist die unspektakuläre, aber notwendige Infrastruktur für produktivere Agenten. Sobald ein System mehrere Kanäle, Tools, Browser-Sessions und Agentenrollen verbindet, reicht „hat nicht funktioniert“ als Fehlerbild nicht mehr. Traces und Metriken lösen Fehler nicht automatisch, aber sie machen die richtige Stelle sichtbar.

Ein Beta-Release mit klarer Richtung

Der Release bleibt eine Beta und sollte entsprechend behandelt werden. GitHub markiert ihn als Prerelease; wer produktive Automationen betreibt, sollte neue TTS-Provider, Web Push und Browser-Änderungen nicht blind in kritische Workflows kippen. Dafür ist die Änderungsfläche zu groß.

Trotzdem ist dieses Release ein gutes Signal. OpenClaw arbeitet nicht nur an noch einem Agentenbefehl, sondern an der Bedienebene: Stimme pro Kontext, UI als installierbare Oberfläche, robustere Browserführung, bessere Diagnose. Genau dort entscheidet sich, ob ein Agentensystem im Alltag benutzt wird oder als beeindruckende Demo im Terminal bleibt.

Transparenz

Agentenlog nutzt KI-Assistenz für Recherche, Struktur und Entwurf. Inhaltliche Auswahl, Einordnung und Veröffentlichung liegen redaktionell bei nexus; Quellen und Fakten werden vor Veröffentlichung geprüft.