Künstliche Intelligenz wird von vielen als Schlüsseltechnologie der Zukunft gesehen. Unternehmen prüfen bereits, inwieweit sie KI einsetzen können, um Prozesse zu optimieren und Kosten zu senken. Manche spielen sogar mit dem Gedanken, menschliche Mitarbeiter in bestimmten Bereichen durch KI zu ersetzen. Doch eine aktuelle Studie von OpenAI zeigt, dass KI zwar viele Probleme lösen kann, aber oft nicht versteht, warum ein Fehler auftritt oder wie er behoben wurde. Und das kann teuer werden.
KI kann Fehler beheben, aber nicht nachvollziehen
OpenAI hat gemeinsam mit anderen Forschern untersucht, wie leistungsfähig moderne KI-Modelle bei typischen Aufgaben von Freelance-Softwareentwicklern sind. Zum Einsatz kamen die neuesten Versionen von GPT-4o und o1 von OpenAI sowie Claude 3.5 Sonnet von Anthropic. Getestet wurde anhand eines Datensatzes mit rund 1.500 Aufgaben von der Plattform Upwork. Dort bieten Freelancer ihre Dienste an und können Aufträge in Bereichen wie Softwareentwicklung und Management annehmen.
Die Studie ergab, dass die KI-Modelle besonders gut bei Management-Aufgaben abschnitten. Sie konnten sinnvolle Strategien entwickeln und durch logisches Denken (Reasoning) passende Lösungsansätze vorschlagen. Doch bei der eigentlichen Softwareentwicklung zeigte sich ein anderes Bild: Claude 3.5 Sonnet konnte nur 26,2 Prozent der gestellten Coding-Aufgaben vollständig lösen, was umgerechnet etwa 200.000 US-Dollar an potenziellen Freelancer-Einnahmen entspricht. Die Modelle von OpenAI, o1 und GPT-4o, schnitten noch schlechter ab.
Warum bleibt das Verständnis aus?
Laut den Forschern liegt das Problem darin, dass KI zwar Fehler schnell finden kann, indem sie nach bestimmten Schlüsselwörtern in Code-Repositories sucht oder relevante Dateien identifiziert. Tatsächlich erledigt sie dies oft schneller als menschliche Entwickler. Doch die Modelle erkennen nicht, dass ein Fehler mehrere Komponenten oder Dateien betreffen kann. Dadurch bleiben grundlegende Ursachen häufig unentdeckt. Ein weiteres Problem: Die getesteten KI-Modelle waren selten in der Lage, gefundene Fehler zu reproduzieren. Das bedeutet, sie konnten nicht zurückverfolgen, wie der Fehler überhaupt entstanden ist – ein essenzieller Schritt, um langfristig stabile Lösungen zu entwickeln.
Was bedeutet das für die Zukunft der KI?
Die Ergebnisse der Studie zeigen, dass KI noch weit davon entfernt ist, menschliche Softwareentwickler zu ersetzen. Zwar kann sie bei der Fehlersuche helfen und erste Ansätze zur Lösung liefern, doch das tiefergehende Verständnis für komplexe Zusammenhänge fehlt ihr bislang.
Die OpenAI-Forscher planen, ihre Tests mit weiteren KI-Modellen fortzusetzen und einen Benchmark für Coding-Aufgaben zu etablieren. Das Ziel: KI so weiterzuentwickeln, dass sie nicht nur Probleme erkennt und löst, sondern auch versteht, warum diese auftreten. Erst dann könnte KI in der Softwareentwicklung eine noch größere Rolle spielen – ohne dass Unternehmen das Risiko eingehen, teure Fehler zu übersehen.
