Die Signal FilesKI, Urteilskraft & die Zukunft der ArbeitPrimärrecherche

KI macht das Bauen gratis. Dein Urteil ist jetzt der Burggraben.

Karpathy sagt, die neue Programmiersprache sei Englisch. Die härtere Lektion: Wenn alle alles bauen können, ist die knappe Ressource der Kopf, der die Richtung vorgibt.

3.400 WörterAchtzehn QuellenStop Trying To Be Invisible

Irgendwann in den letzten zwei Jahren hörte das Machen auf, der schwere Teil zu sein. Code, Text, der erste Entwurf von fast allem — ein Modell liefert ihn auf Zuruf. Andrej Karpathy — Gründungsmitglied von OpenAI und früherer KI-Chef von Tesla — hat die Verschiebung in einen Satz gepresst: „die heißeste neue Programmiersprache ist Englisch". Denk ihn zu Ende, und du landest bei der These, die es zu verteidigen lohnt: Wenn das Ausführen billig wird, wandert der Engpass nach oben — in die Qualität deines Denkens.

Nicht das Werkzeug. Die Klarheit des Kopfes, der das Werkzeug führt. Wir halten das für überwiegend richtig, in der populären Fassung gefährlich unvollständig — und für deutlich anspruchsvoller, als die LinkedIn-Version klingt. Das hier ist die Lesart aus der operativen Praxis: was die Evidenz trägt, was die meisten übersehen, und warum nichts davon zum Nulltarif kommt.

Abschnitt EinsWas Karpathy wirklich sagte — und was nicht

Die These wird in Behauptungen gedehnt, die er nie aufstellte; deshalb zählen die Belege. In seinen eigenen Worten: „die heißeste neue Programmiersprache ist Englisch" — gepostet im Januar 2023, nicht 2025; das halbe Internet datiert es falsch. In seinem Vortrag bei Y Combinator im Juni 2025 formte er den Bogen aus: Software 1.0 ist Code, den du schreibst, 2.0 sind Netzgewichte, die du trainierst, 3.0 sind Prompts in Klartext — das Modell als neue Art Betriebssystem. Er prägte „vibe coding" und nannte es danach einen „weggeworfenen Tweet".

Karpathy, „The hottest new programming language is English", X, 24. Jan. 2023; „Software Is Changing (Again)", Y Combinator, Juni 2025.

Den Teil, den die Eiferer überspringen: Karpathy ist der schärfste Skeptiker seiner eigenen These. Im Podcast von Dwarkesh Patel (Oktober 2025) sagte er unverblümt, dass die Agenten bei echtem, nicht-trivialem Code „Schrott" produzieren, dass „Autocomplete mein Sweet Spot ist" und dass er „der Architekt" bleibt. Sein Rezept: ein „Autonomie-Regler" und KI „an der kurzen Leine" — kleine, prüfbare Häppchen, ein Mensch in der Schleife. Der Vorteil des Dirigenten ist real — und der Mann, der ihn benannt hat, lässt beide Hände an den Reglern. Halte beides aus.

Der Mann, der den Vorteil des Dirigenten benannt hat, lässt beide Hände an den Reglern.

Abschnitt ZweiWarum der Engpass tatsächlich nach oben wandert

Zieh die Euphorie ab, und es bleibt ein harter empirischer Kern. Drei Befunde tragen die Last.

KI nivelliert das Ausführen — sie hebt den Boden. In einem Feldexperiment mit 5.179 Support-Kräften hob ein KI-Assistent die gelösten Fälle pro Stunde im Schnitt um 14 % — aber um 34 % bei Einsteiger:innen und nahe null bei den Erfahrensten. Ein randomisierter Test mit GitHub Copilot ließ Entwickelnde eine Aufgabe 55,8 % schneller abschließen. Das Muster wiederholt sich: KI staucht das Kompetenzgefälle bei klar umrissenen Aufgaben. Das Ausführen wird gerade in Echtzeit zur Massenware.

Brynjolfsson, Li & Raymond, „Generative AI at Work", NBER 2023 / QJE 2025 (n=5.179); Peng et al., GitHub-Copilot-RCT, 2023.

Aber das Urteil darüber, wo man sie einsetzt, ist die Stelle, an der Wert sich sammelt. Die Studie zum Verinnerlichen ist BCG × Harvard, 758 Beratende. Innerhalb der Kompetenzgrenze der KI: rund 40 % höhere Qualität, mehr erledigte Aufgaben. Außerhalb — bei einer bewusst ungeeigneten Aufgabe — lagen die KI-Nutzenden etwa 19 Prozentpunkte häufiger daneben. Das Werkzeug kennt seine eigene Kante nicht. Ethan Mollick taufte die Form: die „ausgefranste Grenze" — unsichtbar, unregelmäßig, nur per Urteil begehbar.

Dell'Acqua et al., „Navigating the Jagged Technological Frontier", Harvard / BCG, 2023 (n=758); Mollick, „Centaurs and Cyborgs", 2023.

Und die Arbeit selbst ändert ihre Form — vom Erzeugen zum Prüfen. Eine Studie von Microsoft Research / Carnegie Mellon mit 319 Wissensarbeitenden fand, dass KI den Aufwand vom Produzieren zum Beaufsichtigen verschiebt. Das ist die ganze These in einem Satz: Dein Job wird das Redigieren, nicht das Tippen.

Wenn das Ausführen gratis ist, bleibt als Rest: zu wissen, was man ausführt — und ob es taugt.

Deshalb läuft ein ganzer Chor von Praktiker:innen auf dasselbe Wort zu. Paul Graham: Geschmack — „sehr genauer Geschmack, plus die Fähigkeit, ihn zu bedienen" — zählt mehr, wenn alles baubar ist, die Maschine dir aber „nicht sagen kann, was zu bauen sich lohnt". Jensen Huang: die haltbare Fähigkeit sei, „jemand zu sein, der richtig gut Fragen stellt". Naval Ravikant sagt es seit zehn Jahren: Im Zeitalter unendlicher Hebelwirkung ist Urteilskraft die wichtigste Fähigkeit.

Abschnitt Drei„Kognitive Architektur" — der Teil, der wirklich trägt

Hier wird die populäre These schludrig, denn die hübsche Fassung — „lern ein paar Denkmodelle, dann denkst du alle an die Wand" — wird von der Wissenschaft widerlegt.

Gutes Denken ist keine frei schwebende Fähigkeit. Es läuft auf tiefem, geordnetem Fachwissen. Das ist einer der robustesten Befunde der Kognitionswissenschaft. Daniel Willingham: „Kritisches Denken ist kein Bündel von Fertigkeiten, das man jederzeit, in jedem Kontext einsetzen kann … es hängt sehr stark von Fachwissen ab." Schachmeister rekonstruieren echte Stellungen weit besser als Anfänger — und verlieren den Vorsprung bei zufälligen Brettern komplett: Ihr Vorteil sind gespeicherte Muster, nicht rohe Hirnkraft.

Willingham, „Critical Thinking", American Educator, 2007; Chase & Simon, Chunking-Studien, 1973.

Die unbequeme Folge: Weiter Transfer ist selten. Es gibt keine kontextfreie „Denkfähigkeit", die du überallhin mitnimmst; Fertigkeiten übertragen sich vor allem, wenn Domänen tiefe Struktur teilen. „Kognitive Architektur" kann also kein hübsches Gitter geborgter Modelle sein. Cedric Chin bringt es auf den Punkt: „Die wertvollsten Denkmodelle überleben die Verschriftlichung nicht" — elitäres Urteil erwirbst du nicht durchs Lesen fremder Zusammenfassungen. Es ist implizit, gebaut durchs Tun, mit Rückmeldung.

AnalyseDiese Präzisierung stärkt das KI-Argument. Wäre die knappe Ressource verschriftlichtes Wissen, besäße die KI es längst — sie hat alles gelesen. Knapp ist das implizite Urteil, wann, ob und wie man Wissen anwendet — genau das, was nicht in einen Prompt passt und nicht brauchbar im Trainingssatz liegt.

Noch eine Säule: Schreiben ist der Belastungstest fürs Denken. Grahams schärfster jüngerer Essay, Writes and Write-Nots: „Um gut zu schreiben, musst du klar denken, und klar zu denken ist schwer … eine Welt geteilt in Schreibende und Nicht-Schreibende ist gefährlicher, als sie klingt. Es wird eine Welt aus Denkenden und Nicht-Denkenden." Wenn die KI dir die Worte entwirft, ist die Versuchung, den Test auszulagern — und mit ihm das Denken, das der Test erzwang.

Wäre die knappe Ressource verschriftlichtes Wissen, besäße die KI es längst. Sie hat alles gelesen.

Abschnitt VierDie stärksten Einwände, fair gemacht

Trägst du nur die optimistische These in eine echte Entscheidung, machst du teure Fehler. Drei Einwände sind ernst genug, dass es fahrlässig wäre, sie zu ignorieren.

Eins: Urteil entsteht durch Ausführen — das Automatisieren des Ausführens frisst womöglich genau das, was es heben soll. Du kannst nicht gut dirigieren, was du nie selbst getan hast; Geschmack folgt auf Wiederholung. Die Verlern-Evidenz ist gemessen, nicht ausgedacht: Nach Einführung einer KI-Polypenerkennung sank die unassistierte Trefferquote von Gastroenterolog:innen; bei falschen KI-Hinweisen fiel die Treffsicherheit erfahrener Radiolog:innen von 82 % auf 45,5 %. Das ist Lisanne Bainbridges „Ironies of Automation" (1983): Je verlässlicher die Automatik, desto stärker verkümmert das Können — genau dann, wenn du es für den seltenen harten Fall brauchst. Die Pipeline-Variante hat harte Zahlen: Berufseinsteiger:innen (22–25) in den am stärksten KI-exponierten Jobs verzeichneten einen relativen Beschäftigungsrückgang von 13 %, während Ältere in denselben Rollen stabil blieben. Wenn KI die Junior-Arbeit erledigt — wie wird dann noch jemand senior?

AI Review, Meta-Analyse zum Verlernen, 2025; Stanford Digital Economy Lab, „Canaries in the Coal Mine", 2025.

Zwei: Richtung ist kein dauerhafter menschlicher Burggraben — die KI klettert ihn hoch. Bewerten, Planen, sogar Prompt-Schreiben sind schon teilweise automatisierbar: KI-als-Richter trifft die Mensch-Übereinstimmung (~80 %) bei Qualitätsurteilen; maschinell optimierte Prompts schlagen menschlich entworfene um bis zu 50 % auf harten Benchmarks; die Länge der Aufgaben, die KI autonom erledigt, verdoppelt sich etwa alle sieben Monate. Die ehrliche Fassung ist Shrivu Shankars: Geschmack ist Alpha, kein Burggraben — ein realer, aber zeitlich begrenzter, relativer Vorsprung.

Zheng et al., LLM-as-judge, NeurIPS 2023; Google DeepMind, Prompt-Optimierung, 2023; METR, Aufgaben-Horizont, 2025.

Drei: Ausgerechnet die Erfahrenen überschätzen am ehesten, wie viel Wert in der Richtung steckt. Der Schlussstein ist brutal. Sechzehn erfahrene Open-Source-Entwickelnde, an ihren eigenen reifen Repositories, waren mit KI-Tools 19 % langsamer — und glaubten, 20 % schneller zu sein. Die Wahrnehmung lief der Realität entgegen. Leg den Microsoft-Befund daneben — höheres Vertrauen in KI korreliert mit weniger kritischem Denken — und das eigentliche Risiko erscheint: der „Dirigent", der abnickt statt zu dirigieren und die Fehler der Maschine verstärkt, statt sie zu fangen.

AnalyseEhrlichkeits-Check: METRs Nachfolge-Studie vom Februar 2026 fand, dass die Verlangsamung mit neueren Tools verschwand — −19 % ist also keine dauerhafte Zahl. Die haltbare Lektion ist die Wahrnehmungsfalle, nicht der Wert. Eine These, die nur überlebt, indem sie ihre Einwände versteckt, ist es nicht wert, danach zu handeln.

Richtung ist der Vorteil. Er ist nicht gratis, und er erneuert sich nicht von selbst.

Abschnitt FünfWarum Bildung überlebt — und warum „Uni ist Abzocke" die schwächste Behauptung im Raum ist

Beginne beim Mechanismus. Lernen passiert am Punkt der Reibung. „Wünschenswerte Schwierigkeiten" — Verteilen, Abrufen, Anstrengung — fühlen sich härter an und erzeugen haltbareres, übertragbareres Wissen. Eine Antwort zu erzeugen schlägt das Wiederlesen; die Mühe ist die Festigung. Mit Anspruch betrieben, baut ein Studium messbar Denkvermögen auf — grob eine Standardabweichung an Zugewinn im kritischen Denken, gebündelt in den lese- und schreibintensiven, fordernden Kursen. Der Vorbehalt ist der Punkt: Es ist die Schwierigkeit, die wirkt, nicht die Anwesenheit.

Bjork & Bjork, „Desirable Difficulties", 2011; Huber & Kuncel, Übersicht zum kritischen Denken, 2016.

Nun die Gefahr, präzise gesagt: KI entfernt die Reibung genau dort, wo das Lernen wohnt. Eine Studie des MIT Media Lab fand, dass KI-gestützte Essay-Schreibende die schwächste neuronale Aktivierung zeigten und oft den Satz nicht zitieren konnten, den sie eben „geschrieben" hatten — die Autor:innen nennen es „kognitive Schuld". Ein Wharton-Versuch ist sauberer in der Ursache: Studierende mit ungebremstem GPT-4 zum Üben schnitten 17 % schlechter ab, sobald es weggenommen wurde — eine „Tutor"-Variante, die Antworten zurückhielt, löschte den Schaden. Reibungsloses Auslagern erzeugt Geläufigkeit ohne Beherrschung. Kein Grund, das Werkzeug zu verbieten; ein Grund, neu zu gestalten, wo die Reibung sitzt.

Kosmyna et al., MIT Media Lab, „kognitive Schuld", 2025 (Preprint, n=54); Bastani et al., RCT zu KI-Tutoren, PNAS 2025.

Und „die Uni ist überholt"? Die Daten spielen nicht mit. Die US-Einschreibungen im Grundstudium stiegen im Frühjahr 2025 um 3,5 %. Skills-basiertes Einstellen ist überwiegend Rhetorik — fallengelassene Abschlussanforderungen bewegten die tatsächlichen Einstellungen ohne Abschluss nur um wenige Punkte. Und die KI-Wendung schneidet gegen die Überholtheit: Wenn KI alle Bewerbungen und Outputs angleicht, verlieren billige Signale an Wert, und Arbeitgeber stützen sich stärker auf belegte, schwer fälschbare Fähigkeit. Was passiert, ist nicht der Tod. Es ist Spaltung und ein Vertrauenseinbruch — positive Durchschnittsrendite, aber rund ein Drittel der Programme im Negativbereich, und eine Unterbeschäftigung frischer Absolvent:innen nahe 41 %.

NSC Research Center, Einschreibungszahlen, 2025; FREOPP, Studien-ROI, 2024; NY Fed, Arbeitsmarktdaten, 2026.

KI entfernt die Reibung genau dort, wo das Lernen wohnt.

Abschnitt SechsWie sich also Arbeit — und Schule — ändern muss

Die Verschiebung geht von Informationslieferung zu Denk-Architektur — vom Belohnen des Produkts (das die KI jetzt erzeugt) zum Bauen und Prüfen des Urteils (das sie nicht fälschen kann). Konkret, und wo es Evidenz gibt:

Verlagere die Prüfung vom Abrufen zur Verteidigung. KI besiegt die Hausarbeit; sie besiegt kein mündliches Rigorosum. Mündliche Prüfungen erleben eine dokumentierte Renaissance, und der Verkauf handschriftlicher Klausurhefte sprang an einer Universität in zwei Jahren um rund 80 %. Benote das Denken, nicht den Text.

Nutze KI als sokratischen Tutor, der die Anstrengung bewahrt. Hier liegt der eine begutachtete Versuch: Ein gerüsteter KI-Tutor verdoppelte die Lernzuwächse grob gegenüber aktivem Präsenzunterricht in Harvard — während die ungebremste Variante oben das Können untergrub. Die Gestaltung — Antwort zurückhalten, Erzeugen erzwingen — ist alles.

RCT zum gerüsteten KI-Tutor, Scientific Reports (Harvard), 2025; im Kontrast zu Bastani et al., PNAS 2025.

Lehre die ausgefranste Grenze ausdrücklich. Die Kern-Kompetenz ist nicht mehr „wie erzeuge ich das Artefakt", sondern „wie beurteile ich, ob das Artefakt der Maschine stimmt" — wann zu trauen, wie zu prüfen, wo sie selbstbewusst lügt.

Schütze die Wiederholungen, die Urteil bauen. Bewahre bewusst die harte, unassistierte Übung, die Geschmack schmiedet — bevor du das Werkzeug reichst, das sie übernommen hätte. Verdien dir den Autonomie-Regler. Bildungs Aufgabe war immer die produktive Anstrengung — sie konnte sie nur voraussetzen, weil es keine Abkürzung gab. Jetzt ist die Abkürzung einen Prompt entfernt, also muss die Reibung mit Absicht zurückgebaut werden.

Zum SchlussDas eigentliche Problem

Die These stimmt in der Richtung, ist falsch als Freifahrtschein. Das Ausführen wird Massenware; Urteil, Geschmack und Problemzuschnitt sind, wo Wert sich sammelt — der empirische Anker ist die ausgefranste Grenze, nicht ein Slogan. Deine kognitive Architektur ist echter Hebel, aber sie ist tiefes Fachwissen plus implizites, hart erarbeitetes Urteil plus die Disziplin des Schreibens — kein geborgtes Gitter aus Modellen. Die Falle ist unsichtbar und schmeichelhaft: Wer am sichersten ist zu dirigieren, nickt oft nur ab — fühlt sich schneller, wird langsamer. Halt die KI an der Leine. Prüfe. Bleib der Architekt.

Der Engpass war nie das Werkzeug. Es ist die Klarheit des Kopfes, der es hält. KI hat nur jede Ausrede entfernt, die sich hinter fehlenden Werkzeugen versteckte — und diese Klarheit zur einzigen Sache gemacht, um die noch konkurriert wird.

Abbildung 01 · Software, dreifach

Derselbe Job — jede Ära in einer neuen Sprache geschrieben

1.0Code
von Hand geschrieben

2.0Gewichte
auf Daten trainiert

3.0Englisch
in Klartext gepromptet

1.0 — Anweisungen, explizit2.0 — gelernte Parameter3.0 — Absicht in natürlicher Sprache

Jede Ära rückt den Menschen weiter weg von den Tastenanschlägen und näher an die Absicht. Quelle: Karpathy, „Software Is Changing (Again)", Y Combinator, Juni 2025.

Abbildung 02 — Die ausgefranste Grenze Dasselbe Werkzeug, gegenteilige Ergebnisse — und nichts an der Oberfläche verrät, auf welcher Seite der Linie eine Aufgabe liegt. Der schraffierte Balken ist die Gefahrenzone. Quelle: Dell'Acqua et al., Harvard / BCG, 2023 (n=758).

Abbildung 03 · Die Wahrnehmungsfalle

Fühlte sich schneller an. Gemessen langsamer.

+20 %

Gefühlt schneller

Entwickelnde glaubten, KI mache sie rund 20 % schneller an ihren eigenen reifen Codebasen.

−19 %

Waren langsamer

Die Stoppuhr sagte 19 % langsamer. Vertrauen ist keine Eichung — die Lücke ist das ganze Risiko.

Sechzehn erfahrene Open-Source-Entwickelnde, eigene Repositories. Quelle: METR, Juli 2025. (Ehrlichkeitsnotiz: Eine Nachfolge vom Feb. 2026 fand die Verlangsamung mit neueren Tools verschwunden — die haltbare Lektion ist die Wahrnehmungslücke, nicht die −19 %.)

Abbildung 04 · Wem der Schub zugutekommt

5.179 Support-Kräfte — und KI half den Neuesten am meisten

34 % mehr gelöste Fälle pro Stunde für die am wenigsten erfahrenen Kräfte — gegenüber nahe null bei den Erfahrensten. KI hebt den Boden; sie hebt nicht die Decke.

Jeder Punkt ist ein Anteil des Produktivitätsschubs; gefüllte Punkte markieren, wo er landete — bei Einsteiger:innen. Quelle: Brynjolfsson, Li & Raymond, NBER 2023 / QJE 2025 (n=5.179).

Illustration — stilisiert, kein Screenshot Eine stilisierte Illustration, kein Screenshot. Die Arbeit wandert vom Produzieren des Outputs zum Führen und Prüfen — mit dem Autonomie-Regler bewusst zurückgehalten. Nach Microsoft Research / CMU (2025) und Karpathys „KI an der Leine".

Der Engpass war nie das Werkzeug.

Quellen

Karpathy, A. — „The hottest new programming language is English", X, 24. Jan. 2023.
Karpathy, A. — „Software Is Changing (Again)" (Software 1.0 / 2.0 / 3.0; LLM-als-OS), Y Combinator, Juni 2025.
Karpathy, A. — Interview, Podcast von Dwarkesh Patel, Oktober 2025 („autocomplete is my sweet spot"; „keep AI on a tight leash").
Brynjolfsson, Li & Raymond — „Generative AI at Work", NBER w31161 (2023) / QJE 2025 (n=5.179; +14 % im Schnitt, +34 % Einsteiger:innen).
Peng et al. — randomisierter GitHub-Copilot-Test, 2023 (Aufgabe 55,8 % schneller).
Dell'Acqua et al. — „Navigating the Jagged Technological Frontier", Harvard / BCG, 2023 (n=758).
Mollick, E. — „Centaurs and Cyborgs on the Jagged Frontier", One Useful Thing, 2023.
Microsoft Research / Carnegie Mellon — KI und kritisches Denken bei Wissensarbeitenden, CHI 2025 (n=319).
Willingham, D. — „Critical Thinking: Why Is It So Hard to Teach?", American Educator, 2007.
Chase & Simon — Chunking und Schach-Expertise, 1973; Barnett & Ceci — Lerntransfer, Psychological Bulletin, 2002.
Chin, C. — „The Mental Model Fallacy", Commoncog.
Graham, P. — „Taste for Makers" (2002); „Putting Ideas Into Words" (2022); „Writes and Write-Nots" (Okt. 2024).
METR — „Measuring the Impact of Early-2025 AI on Experienced Open-Source Developers", Juli 2025 (n=16; −19 % gemessen, +20 % wahrgenommen); Nachfolge, Feb. 2026.
Stanford Digital Economy Lab — „Canaries in the Coal Mine", 2025 (Berufseinstieg −13 % relativ).
Meta-Analyse zum Verlernen — AI Review, 2025 (Radiolog:innen-Treffsicherheit 82 % → 45,5 % bei falschen KI-Hinweisen); Bainbridge, L. — „Ironies of Automation", 1983.
Bjork & Bjork — „Desirable Difficulties", 2011; Huber & Kuncel — Zugewinn im kritischen Denken im Studium, 2016.
Kosmyna et al. — MIT Media Lab, EEG-Studie „kognitive Schuld", 2025 (Preprint, n=54); Bastani et al. — RCT zu KI-Tutoren, PNAS 2025 (−17 % nach Entzug); gerüsteter KI-Tutor, Scientific Reports (Harvard), 2025.
NSC Research Center — Einschreibungszahlen, 2025; FREOPP — Studien-ROI, 2024; NY Fed — Unterbeschäftigung frischer Absolvent:innen (~41 %), 2026.

Eine Notiz zu Methode & Ehrlichkeit. Erstellt vom Forschungs-Desk von Stop Trying To Be Invisible; redigiert und freigegeben von einem Menschen, der die Verantwortung trägt. Karpathys Zitate sind gegen Original-Tweets und seinen Y-Combinator-Vortrag geprüft. Zwei der „KI schadet dem Denken"-Studien (MIT-„kognitive Schuld"; die Meta-Analyse zum Verlernen) sind früh oder korrelativ — glaubwürdig, nicht gesichert. Die METR-Verlangsamung war Anfang 2025 real und bis Ende 2025 verschwunden; die haltbare Lektion ist die Wahrnehmungsfalle, nicht die Zahl. Wir zitieren die Gegenbelege mit Absicht: Eine These, die nur überlebt, indem sie ihre Einwände versteckt, ist es nicht wert.

— Der Signal Index

Wie klar sieht die KI-Ära Sie?

Ein kostenloser, reproduzierbarer Score, wie KI und Suche Sie finden, verstehen und empfehlen — sofort, mit Ihrer Domain.

Ihren Signal Index holen →