GPT-5.3-Codex-Spark: OpenAIs neues Echtzeit-Coding-Modell schafft 1000 Token pro Sekunde

OpenAI geht mit GPT-5.3-Codex-Spark einen neuen Weg: Statt immer grösserer Modelle für komplexe Langzeitaufgaben gibt es jetzt ein schlankes Coding-Modell, das auf Geschwindigkeit optimiert ist. Wie OpenAI heute bekannt gab, schafft Codex-Spark über 1000 Token pro Sekunde – und fühlt sich beim Programmieren dadurch nahezu verzögerungsfrei an.

Cerebras-Partnerschaft macht es möglich

Die extreme Geschwindigkeit verdankt Codex-Spark der im Januar angekündigten Partnerschaft mit Cerebras. Das Modell läuft auf der Wafer Scale Engine 3 – einem speziell für KI-Inferenz entwickelten Chip, der auf minimale Latenz ausgelegt ist. Während die grossen Frontier-Modelle wie GPT-5.3-Codex bei komplexen Aufgaben punkten, brauchen sie dafür deutlich mehr Zeit. Codex-Spark dreht den Spiess um: Es priorisiert Geschwindigkeit, ohne dabei unbrauchbar zu werden.

Für Entwickler, die schnelle Antworten brauchen

Codex-Spark ist auf interaktives Arbeiten ausgelegt. Das Modell macht standardmässig nur minimale, gezielte Änderungen am Code und führt Tests nur auf explizite Anfrage aus. Das Kontextfenster umfasst 128’000 Token, allerdings verarbeitet es aktuell nur Text – keine Bilder oder anderen Medien.

In Benchmarks wie SWE-Bench Pro und Terminal-Bench 2.0 zeigt das Modell solide Ergebnisse bei Software-Engineering-Aufgaben, erreicht diese aber in einem Bruchteil der Zeit im Vergleich zum regulären GPT-5.3-Codex.

Nicht nur Hardware: OpenAI optimiert die gesamte Pipeline

Interessanterweise ist die schnelle Hardware nur ein Teil der Geschichte. OpenAI hat die komplette Request-Response-Pipeline überarbeitet:

Persistente WebSocket-Verbindungen ersetzen das bisherige System
Der Overhead pro Client-Server-Roundtrip sinkt um 80 Prozent
Die Zeit bis zum ersten sichtbaren Token halbiert sich
Der Overhead pro Token reduziert sich um 30 Prozent

Diese Verbesserungen sollen später für alle OpenAI-Modelle Standard werden – davon profitieren dann auch Nutzer, die nicht Codex-Spark verwenden.

Verfügbarkeit

Codex-Spark startet als Research Preview für ChatGPT Pro-Nutzer. Zugang gibt es über die Codex-App, die Kommandozeile (CLI) und die VS Code-Extension. Während der Testphase gelten separate Rate-Limits, die nicht auf das normale Kontingent angerechnet werden. Bei hoher Nachfrage kann es jedoch zu Einschränkungen kommen.

OpenAI sieht Codex-Spark als ersten Schritt zu einem System mit zwei Modi: Längerfristiges autonomes Arbeiten für komplexe Aufgaben einerseits, und schnelle Echtzeit-Interaktion andererseits. Langfristig sollen beide Modi verschmelzen – sodass Codex gleichzeitig interaktiv mit dem Nutzer arbeiten und aufwändige Aufgaben an Sub-Agenten im Hintergrund delegieren kann.

Techgarage

Mach uns zu deiner bevorzugten Informationsquelle

Geschrieben von Kevin Kyburz

Kevin Kyburz ist seit einem Jahrzehnt als Blogger unterwegs und darf seine Meinung zu aktuellen Tech-Themen auch mal im Radio oder in Tageszeitungen unterbringen. Als ehemaliger Kolumnist für eine grosse Pendlerzeitung hat er ein Gespür für technische Fragen von Lesern entwickelt und versucht diese so gut wie möglich zu klären. Wenn er nicht gerade mit Technik beschäftigt ist, widmet er sich der Natur und der Fotografie.

Alle Beiträge vom Autor

Newsletter

Abonniere unseren Newsletter und bleibe über die neuesten Nachrichten auf dem Laufenden.