Cursor hat hunderte autonome KI-Agenten auf eine der komplexesten Aufgaben der Softwareentwicklung angesetzt: den Bau eines Webbrowsers inklusive eigener Rendering-Engine. Nach knapp einer Woche lief eine erste Version – und Branchenstimmen wie Simon Willison korrigieren ihre Zeitpläne. Der Weg dorthin zeigt, wie klare Rollen, die richtige Modellwahl und präzise Prompts den Ausschlag geben.
Autonome KI-Agenten bauen in einer Woche einen Browser – Cursor liefert Blaupause für Organisation und Modellwahl
Cursor hat hunderte autonome KI-Agenten auf eine der komplexesten Aufgaben der Softwareentwicklung angesetzt: den Bau eines Webbrowsers inklusive eigener Rendering-Engine. Nach knapp einer Woche lief eine erste Version – und Branchenstimmen wie Simon Willison korrigieren ihre Zeitpläne. Der Weg dorthin zeigt, wie klare Rollen, die richtige Modellwahl und präzise Prompts den Ausschlag geben.
Einen Webbrowser von Grund auf zu entwickeln, gilt als Mammutprojekt. Cursor hat dafür hunderte autonom arbeitende KI-Agenten eingesetzt – mit bemerkenswertem Ergebnis: Nach knapp einer Woche stand ein lauffähiger Browser mit eigener Rendering-Engine.
„Ich muss zugeben, ich bin sehr überrascht, dass etwas so Leistungsfähiges so schnell entstanden ist“, schreibt Simon Willison, britischer Programmierer und Mitschöpfer des Django-Webframeworks. Willison ist zudem ein einflussreicher, unabhängiger Blogger mit KI-Fokus und prägte 2022 den Begriff „Prompt Injection“ für eine kritische Sicherheitslücke bei LLMs (nachdem zuvor Jonathan Cefalu das Problem als „command injection“ an OpenAI meldete). Noch Anfang Januar hatte er prognostiziert, ein KI-gestützter Browser sei frühestens 2029 realistisch. Nun korrigiert er: „Ich lag möglicherweise drei Jahre daneben.“ Der Browser rendert Webseiten erkennbar korrekt – mit sichtbaren Fehlern, die belegen, dass keine bestehende Engine genutzt wird. Das entspreche in etwa der von ihm erwarteten Ergebnisqualität.
Der Weg dorthin war nicht geradlinig. Der erste Ansatz – gleichrangige Agenten, die sich über eine gemeinsame Datei koordinieren – scheiterte. Aufgaben mussten gesperrt werden, um Doppelarbeit zu vermeiden. Doch die Agenten hielten diese Locks zu lange oder gaben sie nicht frei. Das Ergebnis: 20 Agenten erreichten nur den effektiven Durchsatz von zwei bis drei, weil der Großteil der Zeit mit Warten verstrich. Ohne klare Hierarchie zeigten die Agenten außerdem Risikoscheu: „Sie vermieden schwierige Aufgaben und machten stattdessen kleine, sichere Änderungen. Kein Agent übernahm Verantwortung für harte Probleme oder End-to-End-Implementierungen.“
Cursor stellt daher eine Rollenarchitektur in den Mittelpunkt. Planer erkunden kontinuierlich die Codebase, schneiden Aufgaben zu und können Sub-Planer für spezifische Bereiche spawnen – etwa für das CSS-Rendering oder die JavaScript-Engine. So wird Planung parallel und rekursiv. Worker konzentrieren sich ausschließlich auf die Umsetzung: Aufgabe nehmen, abarbeiten, Änderungen pushen. Am Ende jedes Zyklus entscheidet ein Judge-Agent, ob das Projekt abgeschlossen ist oder eine weitere Iteration startet.
„Viele unserer Verbesserungen kamen dadurch, dass wir Komplexität entfernt haben, nicht hinzugefügt“, schreibt Wilson Lin von Cursor. Eine eigens eingeführte Integrator-Rolle für Qualitätskontrolle und Konfliktlösung schuf mehr Engpässe als sie löste; die Worker konnten Konflikte selbst besser handhaben.
Entscheidend war auch die Modellwahl. GPT-5.2 erwies sich als deutlich besser darin, Anweisungen zu befolgen, den Fokus zu halten und Drift zu vermeiden. Opus 4.5 dagegen neigt dazu, früher aufzuhören und Abkürzungen zu nehmen – es gibt schneller die Kontrolle zurück, statt Aufgaben vollständig abzuschließen. Verschiedene Modelle für verschiedene Rollen lieferten die besten Ergebnisse. So war GPT-5.2 als Planer stärker als GPT-5.1-Codex, obwohl letzteres speziell fürs Coding trainiert wurde. Cursor setzt nun je Rolle das am besten geeignete Modell ein. Zugleich zeigt die Praxis: „Ein überraschend großer Teil des Systemverhaltens hängt davon ab, wie wir die Agenten prompten. Das Harness und die Modelle sind wichtig, aber die Prompts sind wichtiger.“
Der Browser ist nicht das einzige Experiment. In der eigenen Codebase ließ Cursor Agenten eine umfangreiche Solid-zu-React-Migration durchführen – eine Umstellung über mehr als drei Wochen mit +266.000/-193.000 Zeilen Code. Das Ergebnis bestand bereits die CI-Tests, benötigt aber noch ein umfassendes menschliches Review. Ein weiterer Agent beschleunigte Video-Rendering durch eine effiziente Rust-Implementierung; dieser Code soll bald in Produktion gehen.
Weitere Großprojekte laufen parallel: ein Java Language Server Protocol (7.400 Commits, 550.000 Zeilen Code), ein Windows-7-Emulator (14.600 Commits, 1,2 Millionen Zeilen) und ein Excel-Klon (12.000 Commits, 1,6 Millionen Zeilen).
Die Experimente unterstreichen: Fortschritt entsteht hier weniger durch mehr Komplexität als durch klare Zuständigkeiten, passende Modelle und starke Prompts – und liefert in kurzer Zeit Ergebnisse, die bis vor Kurzem als Jahre entfernt galten.
Um dir ein optimales Erlebnis zu bieten, verwenden wir Technologien wie Cookies, um Geräteinformationen zu speichern und/oder darauf zuzugreifen. Wenn du diesen Technologien zustimmst, können wir Daten wie das Surfverhalten oder eindeutige IDs auf dieser Website verarbeiten. Wenn du deine Zustimmung nicht erteilst oder zurückziehst, können bestimmte Merkmale und Funktionen beeinträchtigt werden.
Funktional
Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt.Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.