KI-Agenten-Sicherheit: OpenAI kauft Promptfoo & startet Codex Security

Im März 2026 hat OpenAI eine umfassende Sicherheitsoffensive für den Enterprise-Sektor gestartet. Mit der Übernahme des KI-Sicherheits-Startups Promptfoo und dem Start der Research Preview für den Application-Security-Agenten Codex Security rückt die Absicherung autonomer Systeme in den Fokus. Die Maßnahmen zeigen, dass robuste Sicherheitsinfrastrukturen zur Grundvoraussetzung für den produktiven Einsatz von KI-Agenten werden.

Promptfoo: Automatisierte Sicherheitstests für LLMs

Das 2024 gegründete Startup Promptfoo hat sich auf Werkzeuge spezialisiert, mit denen Unternehmen Sicherheitslücken in Large Language Models (LLMs) aufdecken können. Das Portfolio umfasst eine Open-Source-Schnittstelle sowie eine Bibliothek für automatisierte Sicherheitstests. Nach eigenen Angaben nutzen bereits mehr als ein Viertel der Fortune-500-Unternehmen diese Lösungen.

Mit der Übernahme plant OpenAI, die Promptfoo-Technologie in seine Enterprise-Plattform für KI-Agenten zu integrieren. Konkret stehen dabei drei Aspekte im Vordergrund:

Automatisiertes Red-Teaming: Agenten-Workflows lassen sich systematisch auf Schwachstellen prüfen.
Security-Monitoring: Eine kontinuierliche Überwachung der Aktivitäten auf Risiken und Compliance-Vorgaben.
Open-Source-Ausbau: Die bestehenden, frei zugänglichen Tools von Promptfoo sollen weiterentwickelt werden.

Finanzielle Details zur Transaktion sind nicht offiziell bekannt. Laut Daten von PitchBook hatte Promptfoo bis zur Übernahme rund 23 Millionen US-Dollar an Risikokapital eingesammelt und wurde zuletzt im Juli 2025 mit 86 Millionen US-Dollar bewertet. Für Enterprise-Kunden in regulierten Branchen wie dem Finanz- oder Gesundheitswesen ist die Integration professioneller Testing-Werkzeuge ein entscheidender Schritt, um autonome KI-Entscheidungen abzusichern.

Codex Security: Schwachstellenscans mit Sandbox-Validierung

Fast zeitgleich startete die Research Preview von Codex Security. Der KI-gestützte Application-Security-Agent scannt Code-Repositories auf komplexe Sicherheitslücken, validiert die Ergebnisse in Sandbox-Umgebungen und schlägt Patches vor.

Ein zentrales Problem, das Codex Security adressiert, ist die hohe Fehlerquote herkömmlicher KI-Scanner. Zu viele False Positives kosten Entwicklungszeit und verdecken echte Bedrohungen. Der neue Agent geht hier strukturierter vor:

Kontextaufbau: Das System analysiert die Codebasis und erstellt ein Bedrohungsmodell, das Vertrauensgrenzen und Angriffsflächen berücksichtigt.
Zielgerichtete Suche: Basierend auf diesem Modell sucht die KI nach Schwachstellen, die im spezifischen Kontext ein reales Risiko darstellen.
Sandbox-Validierung: Gefundene Lücken werden in isolierten Umgebungen getestet, um Fehlalarme herauszufiltern.
Repair-Vorschläge: Neben dem Nachweis der Schwachstelle liefert das System konkrete Korrekturvorschläge und Proof-of-Concept-Code zur besseren Einordnung.

Laut Angaben von OpenAI hat Codex Security in ersten Tests bereits 14 CVEs in relevanten Open-Source-Projekten identifiziert. Begleitend dazu bietet das Programm „Codex for OSS“ ausgewählten Open-Source-Projekten kostenlosen Zugang zu erweiterten Analyse-Tools und Code-Reviews.

Wachsende Angriffsfläche durch autonome Agenten

Die parallelen Ankündigungen spiegeln die aktuelle Marktentwicklung wider: Mit dem zunehmenden produktiven Einsatz von KI-Agenten wächst auch die Angriffsfläche. Autonome Systeme, die E-Mails verfassen, Transaktionen ausführen oder Code generieren, eröffnen neue Einfallstore. Risiken wie Prompt-Injection-Attacken oder Datenabflüsse durch ungesicherte Tool-Aufrufe erfordern neue Sicherheitskonzepte.

OpenAI reagiert darauf mit einem zweigleisigen Ansatz: Die Prävention durch systematisches Testing vor dem Live-Gang (Promptfoo) wird ergänzt durch kontinuierliche Überwachung und Schwachstellen-Erkennung im laufenden Betrieb (Codex Security). Damit entwickelt sich das Ökosystem von reinen Modell-APIs hin zu einer umfassenden Plattform für sichere KI-Agenten.

Konsequenzen für Entwickler und Unternehmen

Für Entwickler, die mit der Enterprise-Plattform von OpenAI arbeiten, bedeuten die Integrationen künftig direktere Security-Checks in der Entwicklungsumgebung und automatisierte Schwachstellen-Reports für eigene Workflows.

Unternehmen erhalten dadurch die nötigen Werkzeuge, um Compliance-Anforderungen – wie etwa kommende KI-Kennzeichnungspflichten – technisch umzusetzen und ihr Risikoprofil zu minimieren. Gleichzeitig setzt dieser Vorstoß den Standard für den restlichen Markt. Es ist davon auszugehen, dass andere Anbieter von Foundation Models mit ähnlichen integrierten Sicherheitslösungen nachziehen werden.

Fazit: Sicherheit als Kernfeature

Die Integration von Promptfoo und Codex Security zeigt, dass Sicherheit bei KI-Agenten kein nachgelagertes Add-on mehr ist. Für die Branche der autonomen Systeme ist dies ein klares Signal: Langfristiges Vertrauen im Enterprise-Sektor gewinnt nur, wer Sicherheitskonzepte von Beginn an in die Architektur einbettet.

Dieser Trend zeigt sich auch bei anderen Frameworks in der Praxis. So hat beispielsweise OpenClaw kürzlich mit der Version 2026.3.2 erweiterte Sicherheitsmaßnahmen wie SecretRef und eine striktere Cron-Sicherheit eingeführt. Wer in naher Zukunft KI-Agenten produktiv einsetzen möchte, muss diese ganzheitlichen Sicherheitsstandards zwingend in die eigene Architekturplanung einbeziehen.

KI-Agenten-Sicherheit: OpenAI kauft Promptfoo & startet Codex Security

Promptfoo: Automatisierte Sicherheitstests für LLMs

Codex Security: Schwachstellenscans mit Sandbox-Validierung

Wachsende Angriffsfläche durch autonome Agenten

Konsequenzen für Entwickler und Unternehmen

Fazit: Sicherheit als Kernfeature

Transparenz

Korrekturhinweis

Quellen

Das könnte dich auch interessieren

Anthropic baut Claude-Vertrieb mit Wall-Street-Partnern aus

OpenAI macht ChatGPT-Accounts phishingfester

Oscars ziehen eine klare KI-Grenze bei Schauspiel und Drehbuch