„Der Bibliothekar“ (Giuseppe Arcimboldo, ca. 1566) {Glitch}

Die Kontextmaschinen

2026.04.13

Generative KI produziert Kultur, überall, seit Kurzem: Texte, Bilder, Musik, Code, Gespräche. Und wir messen sie mit Werkzeugen, die für Taschenrechner gebaut wurden.

Im Februar 2026 hat ein Forschungsteam um Cody Kommers am Alan Turing Institute in London ein Paper veröffentlicht, das dieses Problem ausspricht: Computational Hermeneutics. Die These: Generative KI-Systeme sind keine Antwortmaschinen, sondern „Kontextmaschinen“ – und wir brauchen eine völlig andere Art, sie zu verstehen und zu bewerten. Gebraucht wird die Sprache der Hermeneutik, nicht die der Ingenieurskunst: der jahrhundertealten Kunst der Auslegung.

I

Fragen wir ein KI-System, was 7 × 8 ist, gibt es eine richtige Antwort. 56. Die Bewertung ist trivial: richtig oder falsch.

Aber bitten wir dasselbe System, ein Gedicht über Verlust zu schreiben, einen Geschäftsbrief für den japanischen Markt zu formulieren oder ein Bild im Stil von Frida Kahlo zu erzeugen – was ist „richtig“? Ist Anna Karenina ein besserer Roman als Jane Eyre? Sind Andy Warhols Suppendosen eine Kritik oder eine Feier des amerikanischen Konsumismus? Waren die Kreuzzüge ein Akt des Glaubens oder der Gier?

Solche Urteile sind möglich, allerdings hängen sie davon ab, wer urteilt, wann, wo und mit welchen Vorannahmen. Genau hier liegt das Problem. Die KI-Industrie bewertet ihre Systeme mit Benchmarks – standardisierten Tests, die eine einzige, konvergente Lösung voraussetzen. Genauigkeit. Präzision. F1-Score. BLEU-Score. Zahlen, die sagen: Dieses Modell ist 3,7 % besser als jenes. Für Mathematik, für Übersetzung im engeren Sinne, für Faktenfragen: hervorragend. Für Kultur versagen sie.

Kommers und seine 37 Mitautor:innen, wie Informatiker:innen, Literaturwissenschaftler:innen, Philosoph:innen, Künstler:innen von Princeton bis Darmstadt, schreiben: Die KI-Branche behandelt Kultur systematisch falsch, als Variable, die sich messen lässt, statt als den Boden, auf dem Bedeutung erst entsteht.

II

Das Paper nennt drei hermeneutische Herausforderungen, vor denen jedes generative KI-System steht, gewollt oder nicht.

1. Situiertheit → Bedeutung entsteht nur im Kontext

Wer heute Huckleberry Finn liest, liest ein anderes Buch als ein Leser im Amerika des 19. Jahrhunderts. Dieselben Worte, aber der Rahmen hat sich verschoben. Bedeutung ist nicht in einem Text eingeschlossen wie Wasser in einer Flasche. Sie entsteht im Zusammenspiel von Text und Kontext.

KI-Systeme wie ChatGPT oder Gemini geben sich jedoch oft als allwissende Orakel – als sprächen sie vom „Blick von nirgendwo“, Donna Haraways Formel. Sie haben alles gelesen, alles verdaut, und sprechen mit der Autorität des Universellen.

Aber diesen Blick gibt es nicht. Jede Perspektive ist eine bestimmte Perspektive. Tut ein KI-System so, als hätte es keine, versteckt es nur, welche es hat. Ryan Heuser zeigt, wie generative Systeme unterschiedliche Perspektiven zu einer idealisierten Form kollabieren – ein „kultureller Kollaps“, bei dem die Vielfalt der Stimmen zu einem glatten Durchschnitt verschmilzt.

Es ist die Optimierung zum Mittelwert, die wir in der Kultur bereits beobachten: Algorithmen, die Kanten glätten, bis alles nach demselben Netflix-Trailer klingt.

2. Pluralität → was für die einen Bias ist, sind für die anderen Werte

Interpretation ist plural. Was in einer Gemeinschaft als bedeutungsvoller künstlerischer Ausdruck gilt, gilt in einer anderen als anstößig. Was in einer Tradition als autoritative Tatsache zählt, verwirft eine andere als unbegründete Behauptung.

KI-Systeme stehen vor diesem Problem, weil sie Nutzer:innen mit unterschiedlichen Werten bedienen – trainiert auf Materialien, deren Autor:innen sich oft widersprechen. Ein Modell ist gleichzeitig eines und viele: Es spiegelt spezifische kuratorische Entscheidungen wider, enthält aber auch widersprüchliche Stimmen.

Neuere Arbeiten zur „pluralistischen Ausrichtung“ stellen fest: Menschliche Werte stehen von Natur aus in Konflikt – und plädieren für Systeme, die diese Vielfalt aushalten. Aber das tiefere Problem liegt nicht in der Anpassung des Modellverhaltens, sondern in der Bewertung: Wie messen wir „Erfolg“, wenn es keine einzige richtige Antwort gibt?

3. Ambiguität → Interpretationen stehen natürlicherweise in Konflikt

In der Hermeneutik entsteht Bedeutung beim Lesen, nicht im Text selbst. Sie entsteht durch das, was Hans-Georg Gadamer die „Horizontverschmelzung“ nannte: das Zusammenspiel zwischen dem Hintergrund der Interpret:in und dem ausgelegten Artefakt.

Ein Gedicht, das alle Mehrdeutigkeiten auflöst, verliert seinen Reichtum. Ein Gespräch, das nur eine Lesart jeder Äußerung zulässt, wird steril.

Genau das tun aktuelle Bewertungsrahmen: Sie behandeln Mehrdeutigkeit als Rauschen, das sie wegfiltern, statt als Quelle. Die KI-Industrie will Eindeutigkeit. Die Kultur lebt von Vieldeutigkeit.

III

Kommers und sein Team schlagen vor, generative KI-Systeme als „Kontextmaschinen“ zu verstehen. Im Kern beantworten diese Systeme eine einzige Frage: „Was ist, gegeben den aktuellen Kontext, das nächste relevante Token?“

Das klingt technisch, ist allerdings zutiefst hermeneutisch. Denn „Kontext“ ist hier nicht nur der vorherige Satz. Es ist das gesamte Netz aus Bedeutungen, Assoziationen und kulturellen Mustern, das in den Vektorraum-Einbettungen des Modells kodiert ist – jenen mathematischen Repräsentationen, die die „Bedeutung“ von Wörtern als Positionen in einem hochdimensionalen Raum darstellen.

Diese Einbettungen sind selbst interpretative Akte, so die Autor:innen. Sie kodieren nicht „die Wahrheit“ über ein Wort, sondern eine genaue Beschreibung der Kontexte, in denen es wahrscheinlich vorkommt. Und der Self-Attention-Mechanismus der Transformer-Architektur – das Herzstück von GPT, Gemini und Co. – kann als eine Form des hermeneutischen Zirkels gelesen werden: Das Modell schärft sein Verständnis einzelner Tokens an ihrer Beziehung zur gesamten Sequenz – und umgekehrt. Teil und Ganzes, Ganzes und Teil, in einer Schleife.

IV

Die Hermeneutik stammt aus dem Mittelalter. Die Frage „Wie legen wir einen Text richtig aus?“ war im mittelalterlichen Europa buchstäblich tödlich. Die Scholastiker stritten über die richtige Auslegung der Bibel, manchmal bis aufs Blut. Thomas von Aquin unterschied vier Schriftsinne: den wörtlichen, den allegorischen, den moralischen und den anagogischen. Jeder Satz der Heiligen Schrift ließ sich auf vier Weisen lesen – und welche Lesart galt, war eine Frage der Macht.

Wer die Auslegungshoheit hatte, hatte die Autorität. Der Papst. Der Bischof. Der Abt. Die Universität. Die Hermeneutik war das Werkzeug, mit dem Macht stand – oder fiel.

Im Neomittelalter ist dieses Problem wieder da. Nur sind die „Texte“, die ausgelegt werden müssen, keine heiligen Schriften mehr – sondern die Ausgaben von KI-Systemen. Und die Frage „Wer bestimmt, was die richtige Interpretation ist?“ ist so politisch wie im 13. Jahrhundert.

Wenn OpenAI entscheidet, welche Antworten „sicher“ sind, wenn Google festlegt, welche Bilder „angemessen“ sind – üben sie Auslegungshoheit aus, wie sie das mittelalterliche Lehramt kannte. Sie definieren den Kanon. Sie bestimmen die Grenzen des Sagbaren. Und sie tun es hinter verschlossenen Türen.

V

Das Paper geht weiter als die Diagnose. Es schlägt drei konkrete Prinzipien vor, wie wir KI-Systeme hermeneutisch bewerten können.

1. Benchmarks müssen iterativ sein, nicht einmalig

Der hermeneutische Zirkel ist ein Prozess, kein Ergebnis. Kulturelle Ausgaben sind immer Teil eines sich entwickelnden Gesprächs. Eine Bewertung, die auf einem einzigen Prompt basiert, ist so aussagekräftig wie ein Urteil über einen Roman nach dem ersten Satz.

Stattdessen sollten Bewertungen sich über mehrere Austausche entfalten, die den sich entwickelnden interpretativen Kontext widerspiegeln. Erste Benchmarks gehen diesen Weg bereits: Wer Chatbot-Fähigkeiten über den Verlauf einer Interaktion bewertet, sieht, dass bestimmte Verhaltensweisen, etwa „Beziehungsaufbau“ durch empathische Antworten, erst nach mehreren Gesprächsrunden sichtbar werden.

2. Benchmarks müssen Menschen einbeziehen, nicht nur Maschinen

Die interpretativen Prozesse generativer KI hängen untrennbar an den Menschen, die sie nutzen. Kreativität gehört nicht dem Modell. Sie entsteht zwischen Modell und Mensch. Ein hermeneutischer Ansatz bewertet nicht nur die Ausgabe, sondern den Dialog, der sie erzeugt.

Das bricht mit der Ingenieurslogik, die ein System als isolierte Einheit betrachtet. Wir müssen es im Zusammenspiel mit Menschen bewerten – mit ihren Erwartungen, ihren Missverständnissen, ihren kreativen Umwegen. Neuere Arbeiten zeigen: Schäden durch KI-Systeme, etwa soziale Manipulation oder kognitive Überabhängigkeit, lassen sich nur vollständig erfassen, wenn das Modell im Zusammenspiel mit seiner Nutzung durch Menschen bewertet wird.

In der Hermeneutik gibt es kein „System an sich“, nur das System im Gebrauch, eingebettet in einen sozialen Kontext, der es formt und von ihm geformt wird.

3. Benchmarks müssen kulturellen Kontext messen, nicht nur Modellausgaben

Dünne Signale wie „Gefällt mir“/„Gefällt mir nicht“ oder „positiv“/„negativ“ geben einer hermeneutischen Bewertung keinen Halt. Stattdessen brauchen wir Ansätze, die kontextualisierte Anwendungsfälle auf Augenhöhe mit allgemeinen Modellfähigkeiten stellen.

Zum Teil heißt das schlicht: KI dort bewerten, wo sie tatsächlich zum Einsatz kommt. Pointierter: Statt zu fragen, ob eine Antwort korrekt ist, fragt eine hermeneutische Bewertung, wie und warum sie in ihrem kulturellen Rahmen angemessen ist.

Erste Benchmarks beginnen, solche kontextuellen Marker einzubeziehen. Ein kürzlich entwickelter Benchmark stellt soziokulturelle Normen für chinesische und amerikanische Betrachter:innen von KI-generierten Videos gegenüber. Ein anderer Datensatz ordnet Feedback menschlicher Bewerter:innen nach demografischen Merkmalen – um kulturelle Unterschiede in der Beurteilung sichtbar zu machen.

VI

Das Problem ist nicht die generative KI an sich. Das Problem ist, dass wir sie mit den falschen Werkzeugen bewerten – und dass diese Werkzeuge die falschen Anreize setzen. Wenn der Benchmark sagt „Genauigkeit ist alles“, optimieren die Entwickler:innen auf Genauigkeit. Was der Benchmark nicht misst, entwickeln Entwickler:innen auch nicht: kulturelle Sensibilität, Mehrdeutigkeitstoleranz, kontextuelle Angemessenheit.

Das ist kein technisches Problem. Es ist ein politisches.

In Minority Report war das PreCrime-System nicht deshalb problematisch, weil es schlecht funktionierte. Es war gefährlich, weil es zu gut funktionierte, innerhalb eines Rahmens, der die falschen Fragen stellte. Es fragte: „Wer wird ein Verbrechen begehen?“ statt: „Was bedeutet Schuld in einer Gesellschaft, die Zukunft vorhersagen kann?“

Generative KI stellt uns vor eine analoge Frage. Die Frage lautet: Was bedeutet es, wenn eine Maschine Kultur produziert, ohne zu verstehen, was Kultur ist?

Die Hermeneutik antwortet: Kultur ist kein Datensatz. Sie ist ein Prozess der Auslegung, der nie endet. Ein Gedicht „bedeutet“ nicht etwas Festes. Es bedeutet etwas für jemanden, in einem Moment, vor einem Hintergrund. Maschinen, die Gedichte schreiben, Briefe formulieren, Diagnosen stellen und Nachrichten zusammenfassen, müssen wir an diesem Maßstab messen, nicht am Maßstab des Taschenrechners.

VII

Diese Geschichte hat eine Ironie. Jahrzehntelang wurden die Geisteswissenschaften an den Rand gedrängt. Zu weich, zu subjektiv, zu wenig Impact. Die MINT-Fächer dominierten die Fördertöpfe, die Schlagzeilen, die Vorstellungsgespräche. Wer Gadamer las, galt als charmant, allerdings irrelevant.

Jetzt stellt sich heraus: Die mächtigste Technologie unserer Zeit, generative KI, hat ein Problem, das die Geisteswissenschaften seit Jahrhunderten bearbeiten: das Problem der Interpretation. Wie legen wir einen Text aus, wie gehen wir mit Mehrdeutigkeit um, wie verhandeln wir zwischen konkurrierenden Lesarten, wie erkennen wir, dass unser eigener Standpunkt unsere Interpretation formt?

Friedrich Schleiermacher formulierte diese Fragen im frühen 19. Jahrhundert. Wilhelm Dilthey systematisierte sie. Gadamer radikalisierte sie. Und jetzt, im Jahr 2026, schreiben 38 Forscher:innen am Alan Turing Institute ein Paper, das im Grunde sagt: Wir brauchen diese Tradition, um unsere Maschinen zu verstehen.

Das ist keine Nostalgie. Es ist eine Notwendigkeit. Die Hermeneutik bietet keine fertigen Antworten. Aber sie bietet etwas, das der KI-Industrie schmerzlich fehlt: ein Vokabular für die Fragen, die vor den Antworten kommen.

VIII

Wenn du das nächste Mal mit einem KI-System sprichst, wenn du es bittest, eine E-Mail zu formulieren, ein Bild zu erzeugen oder eine Frage zu beantworten, denk daran: Du sprichst mit einer Kontextmaschine, die auf statistischen Mustern in menschlicher Kultur arbeitet. Sie „weiß“ nichts. Sie interpretiert. Ihre Interpretation ist geformt von den Daten, auf denen sie trainiert wurde, von den Entscheidungen der Ingenieur:innen, die sie gebaut haben, und von den Benchmarks, an denen sie gemessen wird.

Die mittelalterlichen Scholastiker wussten: Wer die Auslegung kontrolliert, kontrolliert die Wahrheit. Kommers und sein Team formulieren die zeitgenössische Version davon: Wer kontrolliert die Interpretation, wenn die Interpret:in eine Maschine ist?

Wer diese Frage mit Genauigkeitsmetriken beantwortet, hat sie nicht verstanden. Und solange wir sie nicht verstanden haben, bauen wir weiter am Torment Nexus, aus Bequemlichkeit, nicht aus Bosheit. Weil es einfacher ist, eine Zahl zu optimieren, als eine Bedeutung zu verhandeln. Die Hermeneutik sagt: Es gibt keine Abkürzung. Bedeutung ist Arbeit. Diese Arbeit können wir nicht an Maschinen delegieren, ohne das zu verlieren, was uns ausmacht.

Titelbild: „Der Bibliothekar“ (Giuseppe Arcimboldo, ca. 1566) {Glitch}