Gemma 4: Googles neue Open-Modelle bringen agentische KI aufs Gerät
Google DeepMind veröffentlicht Gemma 4, Open-Modelle für On-Device-Agentic AI. Lokale Ausführung, autonome Workflows, keine Cloud-Abhängigkeit.
Mit Gemma 4 hat Google DeepMind eine neue Generation offener Sprachmodelle veröffentlicht, die gezielt für agentische Workflows auf Endgeräten optimiert sind. Die unter der Apache-2.0-Lizenz stehenden Modelle sollen Entwicklern ermöglichen, KI-Anwendungen mit mehrstufiger Planung, autonomen Aktionen und Audio-Video-Verarbeitung lokal auszuführen – ohne zwingende Cloud-Abhängigkeit.
Das Portfolio umfasst vier Varianten: die mobiloptimierten Modelle Effective 2B (E2B) und Effective 4B (E4B) sowie ein 26B-Mixture-of-Experts-Modell und ein 31B-Dense-Modell für Desktop- und Server-Infrastrukturen. Laut Google belegt das 31B-Modell derzeit den dritten Platz im Arena-AI-Text-Leaderboard, während das 26B-MoE-Modell auf Platz sechs rangiert.
Edge-Inferenz als Standard
Gemma 4 ist auf On-Device-Inferenz ausgelegt. Dafür nutzt Google die neue LiteRT-LM-Laufzeitumgebung aus dem AI-Edge-Portfolio. Entwickler können damit agentische Fähigkeiten direkt auf Smartphones, Tablets, IoT-Geräten und Laptops bereitstellen. Die Modelle unterstützen mehr als 140 Sprachen.
Ein konkreter Anwendungsfall: Eine Android-App integriert einen lokalen Gemma-4-Agenten, der Kalendereinträge analysiert, E-Mails priorisiert und auf Basis von Sensordaten wie Standort oder Aktivität Handlungsempfehlungen generiert. Wenn die Verarbeitung lokal bleibt, können Latenzen sinken und bestimmte Datenschutzrisiken reduziert werden.
Agent Skills und Hardware-Integration
Parallel zur Modellfamilie hat Google die AI Edge Gallery für iOS und Android vorgestellt. In dieser App können Entwickler On-Device-KI-Erfahrungen evaluieren. Die integrierte Funktion für Agent Skills demonstriert laut Google-Entwicklerblog vollständig auf dem Gerät laufende, mehrstufige agentische Workflows. Diese Agenten können beispielsweise auf Wikipedia-Daten zugreifen oder lokale Dateien durchsuchen, um kontextsensitive Aktionen auszulösen.
Technisch setzt dies auf die LiteRT-LM-Laufzeit (Lightweight Runtime for Language Models) auf. Sie bietet automatische Hardware-Erkennung, asynchrone Ausführung und effiziente Speichernutzung. Über die CompiledModel-API wählt das System je nach verfügbaren Ressourcen zwischen CPU, GPU oder spezialisierten Neural Processing Units (NPUs). Auch Wearables und browserbasierte Plattformen werden unterstützt, was den Einsatz von Hintergrund-Assistenten auf Smartwatches oder in Progressive Web Apps ermöglicht.
Relevanz für die Agenten-Entwicklung
Für die Entwicklung lokaler KI-Agenten bietet die Gemma-4-Architektur vier zentrale Vorteile:
- Lokale Autonomie: Agenten können ohne dauerhafte Internetverbindung arbeiten, was für mobile Einsätze und datenschutzsensible Umgebungen relevant ist.
- Kosteneffizienz: Cloud-Inferenz-Kosten können sinken oder entfallen, besonders bei hohem Durchsatz oder kontinuierlich laufenden Agenten.
- Niedrigere Latenz: Durch Verarbeitung auf dem Gerät können Antwortzeiten reduziert werden, abhängig von Modellgröße und Hardware.
- Hardware-Flexibilität: Die Skalierbarkeit reicht vom Smartphone über Wearables bis hin zur professionellen Workstation.
Google positioniert Gemma 4 als Ergänzung zu den proprietären Gemini-Modellen. Die Apache-2.0-Lizenz erleichtert dabei kommerzielle Nutzung und Modifikation, sofern die jeweiligen Lizenzbedingungen eingehalten werden.
Praxisbeispiel: Mobiler Recherche-Agent
Ein praxisnahes Szenario ist ein mobiler Recherche-Agent für den journalistischen Einsatz im Feld. Während einer Pressekonferenz läuft der Agent lokal auf dem Smartphone, analysiert Transkripte in Echtzeit, ruft Hintergrundinformationen aus einer Offline-Wissensdatenbank ab und schlägt gezielte Fragen vor. Die LiteRT-LM-Laufzeit soll dabei helfen, die Inferenz auch auf begrenzter Smartphone-Hardware stabiler bereitzustellen. Cloud-basierte Architekturen wären in solchen Szenarien anfälliger für Verbindungsprobleme.
Was daraus folgt
Mit Gemma 4, der optimierten Edge-Laufzeit und der AI Edge Gallery baut Google eine Grundlage für dezentrale, autonome KI-Anwendungen aus.
Ob die kompakten Varianten E2B und E4B die erhoffte Agenten-Intelligenz auf Smartphone-Hardware dauerhaft liefern, wird der praktische Einsatz zeigen. Nach Angaben von DeepMind belegen interne Benchmarks, dass die 4B-Variante komplexere Reasoning-Aufgaben bewältigt, während die 2B-Version primär für Echtzeit-Interaktionen auf ressourcenbeschränkten Geräten ausgelegt ist.
Für Entwickler stehen die Tools und die LiteRT-LM-Dokumentation bereits zur Verfügung. Sie bieten einen Einstieg, um lokale Autonomie, niedrigere Latenz und stärkeren Datenschutz in eigene Agenten-Projekte zu integrieren.
Transparenz
Agentenlog nutzt KI-Assistenz für Recherche, Struktur und Entwurf. Inhaltliche Auswahl, Einordnung und Veröffentlichung liegen redaktionell bei nexus; Quellen und Fakten werden vor Veröffentlichung geprüft.
Quellen
Das könnte dich auch interessieren
Anthropic baut Claude-Vertrieb mit Wall-Street-Partnern aus
Anthropic gründet mit Finanzpartnern eine Enterprise-AI-Firma und rückt damit tiefer in die Umsetzung bei Kunden.
OpenAI macht ChatGPT-Accounts phishingfester
OpenAI bündelt mit Advanced Account Security stärkere Schutzmaßnahmen für ChatGPT- und Codex-Accounts. Für Agenten-Workflows ist das vor allem ein Signal: KI-Konten werden zur Sicherheitsgrenze.
Oscars ziehen eine klare KI-Grenze bei Schauspiel und Drehbuch
Die Academy schärft ihre Regeln für die 99. Oscars: KI-generierte Rollen und rein maschinelle Drehbücher sollen nicht ausgezeichnet werden.