ChatGPT & Social Media: rechtslastige Hegemonieverstärker
capulcu – ein technologiekritisches Techkollektiv (Gastbeitrag)Mit der Ausbreitung sozialer Medien hat die Vernetzung der Bevölkerung in den meisten Gesellschaften in den letzten zehn Jahren enorm zugenommen. Im gleichen Zeitraum ist eine zunehmende Fragmentierung der Gesellschaft in zunehmend isolierte Gruppen zu beobachten.
Echokammerbildung und gesellschaftliche Polarisierung lassen sich in einem stark vereinfachten Modell des sozialen Gleichgewichts reproduzieren: Die Gemeinschaft zerfällt oberhalb einer kritischen Konnektivität (Anzahl an Freund:innen deren Meinung für meine eigene Meinungsbidung relevant ist) in antagonistische Cluster. Diese zeichnen sich intern jeweils durch eine starke Meinungsübereinstimmung aus, während sie nach außen dominant feindschaftlich gesinnt sind.1
Eine Analyse der algorithmischen Reichweitensteuerung sozialer Medien und des Funktionsprinzips großer Sprachmodelle à la ChatGPT prognostiziert eine Dominanz postfaktischer Inhalte im Internet. Die Rückkopplung synthetisch generierter Inhalte über die sozialen Medien in den Trainingsdatensatz der nächsten Generation von Sprachmodellen führt (Hegemonie verstärkend) zu einem Diversitätsverlust und einem politischen Rechtsdrift der Inhalte im Internet.
Sprachmodelle – keine Wissensmodelle
ChatGPT hat einen beispiellosen Hype um Künstliche Intelligenz ausgelöst. Innerhalb von zwei Monaten haben mehr als 100 Millionen Menschen weltweit die neue Technik ausprobiert. Der Chatbot2 ChatGPT basiert auf einem sogenannten großen Sprachmodell mit (im aktuellen Fall von GPT-4) einer Billion justierbarer Parameter. Ein Sprachmodell beginnt als unbeschriebenes Blatt und wird mit mehreren Billionen Wörtern Text trainiert. Die Funktionsweise eines solchen Modells besteht darin, das nächste Wort in einer Folge von Wörtern aus dem ‚Erlernten‘ zu erraten. Die Bedeutung von Wörtern ist dabei lediglich die statistische Erfassung des Kontexts, in dem sie auftauchen.
Dieses Imitieren von Text-‚Verständnis’ bzw. ‚Wissen‘ über die Berechnung von Wahrscheinlichkeiten für das Auftauchen einzelner Wörter innerhalb von komplexen Wortmustern klappt teilweise verblüffend gut. Das Generieren von Inhalt ohne jegliches semantisches Verständnis hat natürlich den Nachteil, dass auch sehr viel Unsinn (im engeren Sinn) produziert wird. Sprachmodelle leiden unter einem Phänomen, das „Halluzinieren“ genannt wird3 .
ChatGPT erzeugt beispielsweise wissenschaftlich anmutende Abhandlungen, inklusive ‚frei erfundener‘ Referenzen, die strukturell stimmig aussehen, aber nicht existieren. ChatGPT ‚erfindet‘ Dinge und produziert dadurch massenweise Fake-Inhalte – das liegt daran, dass es sich um ein statistisches Sprachmodell und nicht um ein wissensbasiertes Modell handelt. ChatGPT ist daher konzeptionell eine Fake-Maschine – hervorragend geeignet für die Verbreitung von Miss- oder gar Desinformation.
Für ein Restmaß an „Faktizität“ im Internet ist es wenig förderlich, dass Google und Microsoft die neuesten Versionen ihrer Suchmaschinen mit den jeweiligen Sprachmodellen ChatGPT bzw. Bard koppeln. Denn eines kann Künstliche Intelligenz in Form von Sprachmodellen noch weniger als eine listenbasierte Internetsuche: Fakten prüfen. Da Sprachmodelle lediglich Wahrscheinlichkeiten von für sie bedeutungslosen Sprachformen berechnen, ist ein Faktencheck neuen ‚Wissens‘ (über die Trainingsdaten hinaus) ein blinder Fleck. Damit verstärkt sich ein Effekt, der bereits durch das algorithmische Ranking bei den sozialen Medien erkennbar wurde. Nicht-faktengebundene Inhalte können selbstverstärkend im individuellen Nachrichtenstrom so weit ‚nach oben‘ gespült werden, dass Meinungsbilder verzerrt werden.
‚Kannibalismus‘ und Zensur bei wachsendem Anteil KI-generierter Inhalte
Eine derartige Dominanz hat messbare Konsequenzen. Die Größe von Sprachmodellen nimmt zu und damit auch der Bedarf an Trainingsmaterial für das maschinelle Lernen. Immer mehr synthetische Inhalte werden zum Training herangezogen, denn je mehr Inhalte KIs wie ChatGPT oder Google Bard produzieren, desto häufiger werden sie ihre selbst erzeugten Inhalte in ihren Datensatz aufnehmen.
Das geschieht beim sogenannten Datenschürfen, bei dem automatisierte Programme nahezu alles an Daten aufsaugen, was frei im Internet verfügbar ist. Google bedient sich zudem bei den eigenen Anwendungen wie Gmail, in Speicherdiensten wie Google Drive oder Google Docs.
Durch das Wiederverdauen selbst generierter Inhalte entsteht eine „selbstverzehrende“ Rückkopplungsschleife, die einer nachweisbaren Störung unterliegt, der sogenannten Model Autophagy Disorder (MAD)4 : Fehler der Text- oder Bild-Generatoren verstärken sich rekursiv zu regelrechten Artefakten und sorgen für eine abnehmende Datenqualität. Noch wesentlicher ist eine massiv schrumpfende Diversität der Inhalte im Netz bei zu geringer Beimischung neuer, nicht-synthetischer Inhalte.
Von Produktrezensionen über Rezeptsammlungen und Blogbeiträgen bis Pressemitteilungen, Artikeln, Bildern und Videos – die menschliche Urheberschaft von Online-Texten ist auf dem besten Weg, von der Norm zur Ausnahme zu werden. Pessimistische Prognosen sagen bis zum Ende dieses Jahrzehnts einen Anteil von bis zu 90 Prozent KI-generierter Inhalte im Internet voraus.5 Schon jetzt tauchen diese KI-generierten Texte in den Ergebnislisten der Suchmaschinen auf. Eingreifen will Google erst bei „Inhalten mit dem Hauptzweck, das Ranking in den Suchergebnissen zu manipulieren“.6
Wie sollen wir mit der Datenexplosion umgehen, die diese KIs nun verursachen werden? Wie verändert sich eine Öffentlichkeit, die so unkompliziert mit Miss- und Desinformation geflutet werden kann?
Bei steigendem Anteil können derartige synthetische Inhalte den ‚Nutzen‘ des Internet drastisch reduzieren: Wer kämpft sich durch einen (noch viel) größeren Berg an quasi-sinnloser Information – ohne Bezug zur Lebensrealität menschlicher Autor:innen? Lässt sich feststellen, ob ein Text, ein Bild, eine Audio- oder eine Videosequenz durch eine KI generiert bzw. gefälscht wurde? Schon bieten Software-Hersteller Werkzeuge zur Detektion von KI-generierten Inhalten an – selbstverständlich ebenfalls auf der Basis einer künstlich-intelligenten Mustererkennung. Menschlich verfasste Texte sollen sich über statistische Abweichungen von den Wahrscheinlichkeitsmustern der verwendeten Wortgruppierungen der KI-Sprachmodelle unterscheiden lassen. Dies sind jedoch statistische Differenzen, deren Erkennung im Einzelfall damit hochgradig fehleranfällig ist.
Im Falle einer Dominanz von synthetischen Inhalten wird die Mehrheit der Nutzer:innen von Kommunikationsplattformen nach automatisierter Löschung rufen, da ein „unbereinigter“ Nachrichtenstrom für sie zu viel und zu schwer erkennbaren „Unsinn“ enthält. Damit ergibt sich eine Lizenz zum (immanent politischen) Löschen bzw. zur Unsichtbarmachung von Inhalten im Netz. Den Architekt:innen der nun anzupassenden Social Media-Algorithmen und den Datenaufbereiter:innen für Training und Output der großen Sprachmodelle kommt dann eine nicht hinnehmbare Macht innerhalb der politischen Öffentlichkeit zu:
Eine KI-basierte Bewältigung des Problems synthetischer Inhalte im Netz ist ein politisches Desaster für die historische Entwicklung des Internet, welches vorgab, die Demokratisierung der Wissenszugänge und des Informationsaustauschs voranzutreiben.
Die Machtkonzentration auf ein kleines Oligopol ist umso größer, als die Privatisierung von Sprachtechnologien massiv voranschreitet. Der Wettlauf um immer umfangreichere Modelle hat schon jetzt dazu geführt, dass nur noch wenige Firmen im Rennen verbleiben werden – neben dem GPT-Entwickler Open AI und seiner Microsoft-Nähe sind das Google, Facebook, xAI (neue Firma von Elon Musk), Amazon und mit Einschränkung7 chinesische Anbieter wie Baidu. Kleinere, nichtkommerzielle Unternehmen und Universitäten spielen dann so gut wie keine Rolle mehr.
Der ökonomische Hintergrund dieser drastisch ausgedünnten Forschungslandschaft: Das Training der Sprachmodelle ist eine ressourcenintensive Angelegenheit, welches eine massive Rechenleistung und damit einen beträchtlichen Energieaufwand erfordert. Ein einziger Trainingslauf für das derzeit größte Sprachmodell GPT-4 kostet aktuell 63 Millionen Dollar.8
Auf der Überholspur ins Zeitalter von Deepfakes
Analog zur (Text-zu-)Texterzeugung per ChatGPT nutzen Programm wie Midjourney oder Stablediffusion einen ebenfalls auf maschinellem Lernen basierenden (Text-zu-)Bildgenerator, um aus einer textförmigen Bildbeschreibung synthetische Bilder zu erzeugen. Die so erstellten Fake-Bilder einer fiktiven Festnahme von Donald Trump und eines im Rapper-Style verfremdeten Papstes galten dem Feuilleton zu Anfang des Jahres weltweit als ikonische Zeugnisse einer „neuen Fake-Ära“ des Internet. Dabei waren beide lediglich gut gemachte, aber harmlose Bildfälschungen. Andere Formen der sprachmodellbasierten Mis- und Desinformation sind von weit größerer Tragweite. Und neu ist, dass es keiner handwerklichen Fertigkeiten bedarf und die für alle zugängliche, quasi-instantane Manipulierbarkeit auch Video- und Audio-Sequenzen betrifft.
„Das ist genau das, worüber wir uns Sorgen gemacht haben: Wenn wir in das Zeitalter der Deepfakes eintreten, kann jeder die Realität leugnen“, so Hany Farid, ein Experte für digitale Forensik und Professor an der University of California, Berkeley. „Das ist die klassische Lügendividende9 .“ Eine skeptische Öffentlichkeit wird dazu gebracht, die Echtheit von echten Text-, Audio,- und Videodokumenten anzuzweifeln.
Angesichts der beachtlichen Geschwindigkeit, mit der ChatGPT neue Nutzer:innen gewinnt, bedeutet dies einen enormen zukünftigen Schub für das Postfaktische, dessen Hauptwirkungsweise nicht darin besteht, dass selbstkonsistente Parallelwelten von Falscherzählungen für sich ‚Wahrheit‘ im Sinne einer Faktizität reklamieren, sondern dass sie die Frage „Was ist wahr und was ist falsch?“ (zumindest in Teilen des öffentlichen Diskursraums) für unwichtig erklären.
Große Sprachmodelle sind geradezu das Ideal des Bullshitters, wie der Philosoph Harry Frankfurt, Autor von „On Bullshit“, den Begriff definierte. Bullshitter, so Frankfurt, sind schlimmer als Lügner. Ihnen ist es egal, ob etwas wahr oder falsch ist. Sie interessieren sich nur für die rhetorische Kraft einer Erzählung. Beide Aspekte, das Ignorieren der Frage nach wahr oder falsch, als auch deren aktive Dekonstruktion haben das Potential, Gewissheiten über das Funktionieren von Gesellschaft zu zerlegen. Selbstorganisiertes politisches Engagement von unten droht zu einem Blindflug entlang falscher Annahmen zu werden. Die darauf folgende Ernüchterung befördert den Rückzug ins Private – ein durchaus gewünschter und geförderter Aspekt10 .
Politisch profitieren können von einem hohen Anteil an Missinformation rechte Kräfte, denen an einer gesellschaftlichen Destabilisierung durch wachsende Polarisierung gelegen ist. Je stärker die Akzeptanz verbreiteter Information von ihrem Wahrheitsgehalt entkoppelt ist, desto leichter lässt sich dann auch manipulative Desinformation verbreiten.
Falschnachrichten sind meist überraschend und erzeugen deutlich mehr Aufmerksamkeit. Bewusst adressierte Affekte wie Empörung, Angst und Hass erzeugen bei der Leser:in nachweislich mehr Aktivität und halten die Nutzer:innen damit länger in sozialen Netzwerken als etwa Freude, Zuversicht und Zuneigung. Dieses Muster wird von der algorithmischen Reichweitensteuerung sozialer Medien erkannt und rückkoppelnd als Trend verstärkt. Über diese statistische Gewichtsverzerrung bevorzugt rechter Beiträge innerhalb politischer Debatten ist z.B. auf Twitter eine deutliche Rechtsverschiebung zu verzeichnen – und das bereits weit vor der Übernahme durch Elon Musk und dessen Neuausrichtung des Algorithmus.11 Der Siegeszug des Trumpismus nach 2016 ist ein gut untersuchtes Beispiel derartig kontaminierter Diskursräume.
Vergangenheit in die Zukunft projiziert
ChatGPT ist ein stochastischer Papagei, der (willkürlich) Sequenzen sprachlicher Formen zusammenfügt, die er in seinen umfangreichen Trainingsdaten beobachtet hat, und zwar auf der Grundlage probabilistischer Informationen darüber, wie sie kombiniert werden, aber ohne jeglichen Bezug zu deren Bedeutung. Ein solcher Papagei reproduziert und verstärkt dabei nicht nur den Bias (Anmerkung AIB: Ein durch falsche Untersuchungsmethoden verursachte Verzerrung des Ergebnisses) von verzerrten Trainingsdaten, sondern auch hegemoniale Weltanschauungen dieser Trainingsdaten.
Gesellschaftliche Verhältnisse aus der Vergangenheit der Trainingsdaten werden in die Zukunft verstetigt. Die den Sprachmodellen immanente Rekombination statistisch dominanter Wissenseinträge der Trainingsdaten wirkt die Verhältnisse konservierend und stabilisierend – ein sogenannter value lock, das Einrasten von Werten im Sinne einer politischen Stagnation droht.12
Die Bedingungen einer solchen Hegemonieverstärkung werden leider nur marginal gesellschaftlich (mit-)bestimmt. Das komplexe System aus Trainingsdatenaufbereitung, Parameterjustierung des Sprachmodells und nachträglicher Zensur des Outputs (allesamt unter der Kontrolle profitorientierter Privatunternehmen) bestimmen das Gewicht von neuen Wissenseinträgen. Damit liegt die hohe Hürde einer ausreichenden statistischen Relevanz emanzipatorischer Debattenbeiträge außerhalb einer demokratisch verfassten, gesellschaftlichen Mitbestimmung. Angesichts eines deutlichen politischen Drifts nach rechts maßgeblicher Technokrat:innen des KI-Geschäftsmodells (wie Sam Altman, Elon Musk, Peter Thiel, ...) sind das keine hinnehmbaren Voraussetzungen für eine gesellschaftlich progressive Entwicklung.
Die intrinsische Hegemonieverstärkung großer Sprachmodelle über ein selbstverstärkendes Wiederverdauen des eigenen Outputs als Input für das nächste Training des Modells bedeutet einen Verlust an Meinungsvielfalt. Zusätzlich führt die zuvor erwähnte Bevorzugung (in Reichweite und Verbreitungsgeschwindigkeit) verschwörerischer und (rechts-)populistischer Inhalte in den sozialen Medien zu einer politisch rechts gerichteten Verzerrung in den Trainingsdaten der nächsten Generation von Sprachmodellen. Dadurch erwarten wir in der Überlagerung beider Effekte einen rechtslastigen Diversitätsverlust.
Die Unzulänglichkeit der sich neu ergebenden Informationsinfrastruktur bestehend aus großen Sprachmodellen + Social Media-Plattformen + Suchalgorithmen wird sich wohl kaum durch eine gesellschaftlich legitimierte, besser ausbalancierte Inhalte-Moderation abfedern lassen. Eine emanzipatorische Technologiekritik darf nicht auf der Ebene kosmetischer Korrekturen einer zahnlosen „Technikfolgenabschätzung“ verharren.
Die langfristigen gesellschaftlichen Folgen dieser Modelle innerhalb einer dominanten KI-Empfehlungs- und Entscheidungs-Assistenz insbesondere für den Prozess der politischen Willensbildung, tauchen in einer nun allseits geforderten technischen Sicherheitsforschung von KI-Systemen als „schwer zu quantifizieren“ gar nicht auf.13
Anstatt große Sprachmodelle unkritisch als unausweichlichen technologischen Fortschritt hinzunehmen, sollten wir die Frage aufwerfen, ob, und nicht wie, diese Technologie zur Anwendung kommen sollte. Die zentrale Machtposition eines Technologie-Oligopols, welches die beschriebene Diskursverzerrung algorithmisch codiert, muss aus einer progressiven Position als Rückschritt und als politische Sackgasse zurückgewiesen werden.
- 1Thurner, S. (2020): The effect of social balance on social fragmentation, J. R. Soc. Interface 17: 20200752. http://dx.doi.org/10.1098/rsif.2020.0752
- 2Ein Computerprogramm, welches möglichst menschenähnlich kommuniziert.
- 3Die Psychologie spricht genauer von „Konfabulationen“.
- 4Alemohammad et al., Self-Consuming Generative Models Go MAD, 2023, https://arxiv.org/abs/2307.01850
- 5www.youtube.com/watch?v=DgYCcdwGwrE
- 6https://developers.google.com/search/blog/2023/02/google-search-and-ai-…
- 7Die weitreichende Zensur von Trainingsdaten und Output chinesischer Sprachmodelle stellen wegen der damit verengten Datenbasis ein großen Wettbewerbsnachteil dar. Eine weitere Hürde ist die Hardware. US-Regulierungen verhindern den Export der neuesten KI-Chips von Nvidia u.a. nach China. Diese Chips sind (derzeit) entscheidend für die Entwicklung und Verbesserung von KI-Modellen.
- 8https://the-decoder.de/leaks-zeigen-gpt-4-architektur-datensaetze-koste…
- 9Die „Lügendividende“ ist ein Begriff, den Robert Chesney und Danielle Citron 2018 in einer Veröffentlichung Deep Fakes: A Looming Challenge for Privacy, Democracy, and National Security, prägten. Darin beschrieben sie die Herausforderungen, die Deepfakes für die Privatsphäre, die Demokratie und die nationale Sicherheit darstellen. Der zentrale Gedanke darin ist, dass die Allgemeinheit sich bewusst wird, wie einfach es ist, Audio- und Videomaterial zu fälschen, und dass diese Skepsis als Waffe einsetzbar ist: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3213954
- 10Beispielhaft steht hierfür die Politik von Vladislav Surkov, Spindoktor Putins. www.nytimes.com/2014/12/12/opinion/russias-ideology-there-is-no-truth.h…;
- 11Aral, S. (2018): The spread of true and false news, Science 359,1146-1151(2018), www.science.org/doi/10.1126/science.aap9559
- 12Bender et al: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? (2021) https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- 13Siehe dazu: Nudging – die politische Dimension psychotechnologischer Assistenz, DISS-Journal#43 (2022) www.diss-duisburg.de/2022/08/nudging-die-politische-dimension-psychotec…