Zum Inhalt springen
deep-dives · 5 min Lesezeit

Token‑Kosten wirklich verstehen: Input, Output, Cache, Tools & versteckte Posten

KI‑Kosten: Nicht nur Input/Output, auch Caching & Provider‑Aufschläge treiben die Rechnung. Praxis‑Guide für Budgetierung (OpenAI, Anthropic).

Kosten Token OpenAI Anthropic OpenRouter Budgetierung

Wer KI-Modelle nutzt, fürchtet oft unerwartet hohe Rechnungen. Um das Budget im Griff zu behalten, reicht es nicht, nur auf Input- und Output-Kosten zu achten. In der Praxis treiben Caching-Gebühren, Tool-Nutzung und Reasoning-Tokens die Ausgaben in die Höhe. Dieser Artikel schlüsselt die einzelnen Posten auf und zeigt, wie sich Token-Budgets effizient steuern lassen.

Die Grundlage: Was ist ein Token?

Ein Token ist die kleinste Verarbeitungseinheit eines Large Language Models (LLM). Im Deutschen entspricht ein Token etwa 0,75 Wörtern. Eine durchschnittliche DIN-A4-Seite Text umfasst grob 1.500 bis 2.000 Tokens.

Modelle arbeiten mit einem sogenannten Kontextfenster. Aktuelle Modelle wie GPT-4o oder Claude 3.5 Sonnet können laut Anbieterangaben zwischen 128.000 und 200.000 Tokens gleichzeitig verarbeiten. Abgerechnet wird alles, was in dieses Fenster fließt (Input) und was das Modell daraus generiert (Output).

Posten 1: Input-Tokens – der Prompt

Jede Anfrage an ein Modell besteht aus einem Prompt. Dieser umfasst:

  • Die eigentliche Frage oder Anweisung
  • System-Prompts zur Rollendefinition
  • Den bisherigen Chat-Verlauf (Conversation History)
  • Eingebettete Dateien wie Bilder, PDFs oder Code-Snippets

Ein 500-Token-Prompt bei einem Flaggschiff-Modell wie GPT-4o kostet laut OpenAI-Preisliste 2,50 US-Dollar pro einer Million Tokens. Die Kosten für eine solche Einzelanfrage liegen im Bruchteil eines Cents. Bei langen Kontexten oder vielen automatisierten Aufrufen summieren sich diese Beträge jedoch spürbar.

💡 Tipp: Viele Provider bieten Prompt-Caching an. Wird derselbe System-Prompt wiederholt gesendet, berechnet der Anbieter ihn deutlich günstiger. Das lohnt sich besonders bei der Batch-Verarbeitung oder bei Agenten mit umfangreichen Basis-Instruktionen.

Posten 2: Output-Tokens – die Antwort

Output-Tokens bilden den vom Modell generierten Text. Dieser Posten ist fast immer teurer als der Input – oft um den Faktor drei bis vier. Bei GPT-4o kosten eine Million Output-Tokens laut OpenAI 10,00 US-Dollar.

Die Generierung erfordert architekturbedingt mehr Rechenleistung. Zudem nutzen Provider diese Preisstruktur, um präzise Prompts zu fördern und ausufernde Antworten zu sanktionieren. Eine Zusammenfassung von 1.000 Tokens kostet somit etwa einen Cent. Bei hunderten Anfragen pro Tag wird der Output schnell zum größten Kostenfaktor.

Posten 3: Caching – der versteckte Beschleuniger

Moderne Modelle nutzen einen Key-Value-Cache (KV-Cache). Bereits berechnete Vektoren werden zwischengespeichert, was Folgeanfragen mit gleichem Kontext massiv beschleunigt.

Während Anbieter wie Anthropic oder OpenAI Caching-Rabatte auf den Input gewähren, können bei bestimmten Aggregator-Setups für erweiterte Caching-Funktionen abweichende Tarife gelten. Ein genauer Blick in die Preisdetails des jeweiligen Providers verhindert Überraschungen.

Posten 4: Tool-Nutzung und Function Calling

Greift ein KI-Agent auf externe Werkzeuge wie Browser, Taschenrechner oder APIs zu, steigt der Token-Verbrauch auf drei Ebenen:

  1. Tool-Beschreibung: Jedes Werkzeug wird dem Modell als JSON-Schema im Prompt übergeben. Diese Beschreibungen vergrößern den Input.
  2. Tool-Auswahl: Die Entscheidung des Modells, ein Tool zu nutzen und die Parameter zu befüllen, verbraucht Output-Tokens.
  3. Tool-Resultate: Die Ergebnisse der externen Abfrage fließen zurück in den Kontext und zählen als neuer Input für die nächste Modell-Runde.

Nutzt ein Agent beispielsweise 20 Tools mit je 200 Tokens Beschreibung, wächst der Input pro Anfrage allein durch die Bereitstellung der Werkzeuge um 4.000 Tokens.

Posten 5: Reasoning-Tokens („Chain of Thought“)

Modelle mit speziellen Reasoning-Fähigkeiten (wie die o1- oder o3-Serie von OpenAI) „denken“ vor der Antwort nach. Sie generieren einen internen Gedankengang, um komplexe Probleme zu lösen.

Diese Reasoning-Tokens werden laut OpenAI wie reguläre Output-Tokens abgerechnet. Der Kostenfaktor entsteht hier durch die schiere Menge: Ein Modell kann tausende Tokens für den internen Denkprozess verbrauchen, bevor das erste Wort der eigentlichen Antwort ausgegeben wird. Reasoning-Modelle sollten daher gezielt für komplexe Logik-, Programmier- oder Mathematikprobleme eingesetzt werden. Für Standardaufgaben genügen klassische Modelle.

Posten 6: Provider-Aufschläge und Aggregatoren

Aggregatoren wie OpenRouter bündeln Modelle verschiedener Anbieter unter einer einheitlichen API. Die reinen Inferenz-Kosten der Modell-Provider werden dabei in der Regel 1:1 durchgereicht. Aufschläge entstehen laut OpenRouter-FAQ meist nur bei der Zahlungsabwicklung, etwa durch prozentuale Gebühren bei Kreditkartenzahlungen.

Der Vorteil liegt in der zentralen Verwaltung: Es ist nur ein API-Key für Dutzende Modelle nötig. Wer jedoch exklusiv und in großen Mengen nur ein einziges Modell nutzt, fährt direkt beim Original-Provider oft am günstigsten.

Kostenbeispiel: Ein typischer KI-Agenten-Tag

Angenommen, ein Agent bearbeitet täglich:

  • 50 Kurzanfragen (je 200 Input, 300 Output)
  • 10 komplexe Anfragen mit Tools (je 500 Input, 800 Output, 200 Tool-Tokens)
  • 2 Reasoning-Aufgaben (je 1.000 Input, 1.500 Reasoning-Output)

Basierend auf aktuellen Preisen für leistungsstarke Modelle belaufen sich die Kosten für diese rund 45.000 verarbeiteten Tokens auf etwa 0,30 bis 0,50 US-Dollar pro Tag. Bei intensiver Nutzung entspricht das rund 10 bis 15 US-Dollar im Monat. Durch den Wechsel auf hocheffiziente Modelle wie GPT-4o-mini, Claude 3.5 Haiku oder DeepSeek V3 lassen sich diese Kosten oft auf unter 5 US-Dollar im Monat drücken.

Wie du Kosten kontrollierst – 4 praktische Tipps

  1. Modellwahl anpassen: Nutze kleine, schnelle Modelle für einfache Chats und Formatierungsaufgaben. Reserviere Flaggschiff- oder Reasoning-Modelle für komplexe Logik.
  2. Kontext begrenzen: Lösche alte, irrelevante Nachrichten aus dem Chat-Verlauf. Übergib Agenten nur die Daten, die sie für den aktuellen Schritt zwingend benötigen.
  3. Prompt-Caching aktivieren: Prüfe, ob dein SDK oder Client Caching unterstützt, und strukturiere Prompts so, dass statische Instruktionen am Anfang stehen.
  4. Budgets und Alarme setzen: Plattformen wie OpenAI oder OpenRouter erlauben das Setzen von harten Ausgabenlimits (Hard Caps) und Benachrichtigungen (Soft Caps). Richte diese zwingend ein, bevor du automatisierte Skripte startest.

Fazit: Token-Kosten sind beherrschbar

Token-Kosten wirken anfangs undurchsichtig. Wer die einzelnen Posten kennt, kann sie jedoch gezielt steuern. Die größten Hebel sind die Wahl des passenden Modells, eine strikte Kontrolle der Kontextlänge und der bewusste Verzicht auf teure Reasoning-Schleifen bei trivialen Aufgaben. Mit einem Budget von wenigen Cent pro Tag lässt sich bereits ein hochproduktiver KI-Agent betreiben.

Transparenz

Agentenlog nutzt KI-Assistenz für Recherche, Struktur und Entwurf. Inhaltliche Auswahl, Einordnung und Veröffentlichung liegen redaktionell bei nexus; Quellen und Fakten werden vor Veröffentlichung geprüft.