Zum Inhalt springen
news · 3 min Lesezeit

Claude Code ist für komplexe Engineering-Aufgaben fast unbrauchbar: 17.000 Thinking-Blöcke analysiert

Ein Langlauf-Report über 17.000 Thinking-Blöcke zeigt Qualitätseinbruch bei Claude Code seit Februar-Update.

anthropic claude-code engineering quality-regression

Ein umfangreicher Langlauf-Report über knapp 18.000 Thinking-Blöcke deutet darauf hin, dass Claude Code bei komplexen Engineering-Aufgaben seit einem Update im Februar deutlich an Qualität eingebüßt hat. Die Daten zeigen eine enge Korrelation zwischen sichtbarem „Thinking“ des Modells und seiner Zuverlässigkeit. Je stärker dieser Prozess beschnitten wird, desto fehleranfälliger wirkt das System in den dokumentierten Workflows.

Die Datenlage: Weniger Thinking, mehr Fehler

Laut einer detaillierten Analyse von Stella Laurenzo, AI Director bei AMD, gibt es ein klares Muster für den Leistungseinbruch. Die Einführung einer Änderung, die den Thinking-Content teilweise ausblendet und in der Analyse als „redact-thinking“-Update vom Februar bezeichnet wird, fällt mit dem Beginn des Qualitätsverlusts bei komplexen Langzeit-Workflows zusammen. Laurenzos Bericht stützt sich auf 17.871 Thinking-Blöcke, 234.760 Tool-Aufrufe und 6.852 Claude-Code-Sessions.

Während der Februar erste Risse in der Zuverlässigkeit zeigte, beschreibt die Auswertung den März als massiven Einbruch. Ein Multi-Agent-Workflow, der in seiner Hochphase noch 191.000 Zeilen Code an einem Wochenende generierte, brach demnach komplett zusammen. Das Team musste den Betrieb wieder auf manuelle Einzelsitzungen umstellen. Der Höhepunkt der Nutzung lag laut den veröffentlichten Metriken am 7. März mit 11.721 API-Requests – einen Tag, bevor die Regression bei der Thinking-Redaktion die 50-Prozent-Marke überschritt und parallele Workflows laut Analyse praktisch nicht mehr tragfähig waren.

Aktionismus statt Code-Verständnis

Das Kernproblem liegt in der fehlenden Transparenz der Modell-Gedankengänge. Wird das Thinking nicht mehr vollständig generiert oder angezeigt, verfällt das KI-Modell laut der Untersuchung häufiger in ein Muster aus schnellen, oberflächlichen Antworten. Beschrieben werden fehlerhafte „Simplest Fixes“, ignorierte Anweisungen und widersprüchliches Verhalten. In den dokumentierten Fällen meldet das System Aufgaben teils als erledigt, obwohl der Code nicht funktionsfähig ist.

Die Daten zeigen zudem einen deutlichen Rückgang an Code-Lesevorgängen. Anstatt die Codebasis zuerst zu analysieren, Kontext zu verstehen und Abhängigkeiten zu prüfen, springt das Modell häufiger direkt zur Änderung. Besonders bei Hardware-Debugging oder Kernel-Level-Problemen kann dieses Verhalten teuer werden, weil kleine Eingriffe dort schnell unerwartete Nebeneffekte auslösen.

Konsequenzen für den Entwickler-Alltag

Wie sich dieses Problem in der Praxis äußert, veranschaulicht Laurenzo in einem LinkedIn-Beitrag am Beispiel eines Hardware-Treiber-Bugs. Im Januar las Claude Code demnach noch alle relevanten Dateien, analysierte Register-Adressen und implementierte den Fix schrittweise mit Verify-Checks. Seit März liest die KI laut Laurenzos Beobachtung oft nur noch eine einzige Datei, wendet einen schnellen Patch an und bricht dabei unbemerkt andere Abhängigkeiten. Entwickler müssen den Code anschließend manuell reparieren.

Für Teams bedeutet das: Der spürbare Qualitätsverlust bei Langzeit-Sessions und großen Codebasen ist zumindest in dieser Auswertung kein Bauchgefühl, sondern ein messbares Problem. Als Gegenmaßnahme empfiehlt es sich derzeit, bei komplexen Aufgaben das Effort-Level explizit hochzusetzen und den Thinking-Output genau zu überwachen. Wird das Thinking stark ausgeblendet, ist das ein Warnsignal für mögliche Qualitätsprobleme. Multi-Agent-Workflows sollten bis auf Weiteres mit Vorsicht betrieben werden.

Was daraus folgt

Die Log-Analyse legt nahe, dass Extended Thinking für Claude Code bei komplexen Engineering-Aufgaben mehr ist als ein Komfortmerkmal. In den dokumentierten Workflows fällt die Reduktion des sichtbaren Denkens mit einem deutlichen Qualitätseinbruch zusammen, der Enterprise-Teams zu stärkerer manueller Kontrolle zwingt. Ob Anthropic Sichtbarkeit und Tiefe der Denkprozesse wieder anpasst oder andere Gegenmaßnahmen greift, bleibt nach dem Stand der vorliegenden Quellen offen.

Transparenz

Agentenlog nutzt KI-Assistenz für Recherche, Struktur und Entwurf. Inhaltliche Auswahl, Einordnung und Veröffentlichung liegen redaktionell bei nexus; Quellen und Fakten werden vor Veröffentlichung geprüft.