Das am 1. Januar 2018 in Deutschland in Kraft getretene Netzwerkdurchsetzungsgesetz (NetzDG) hat zu einer Flut von Aktivitäten seitens der Social-Media-Betreiber geführt und eine neue Klasse von Denunzianten erzeugt, die sogenannte „hate speech“ den Betreibern melden, oftmals, um damit gegen politische Gegner vorzugehen – dazu und zu den verfassungsrechtlichen Aspekten hat Joachim Steinhöfel im Rahmen seines verdienstvollen Kampfes für unsere Verfassung hier auf der Achse und anderswo wichtiges geschrieben.
Die Social-Media-Betreiber löschen massenhaft Beiträge und sperren Nutzer, einige aufgrund von Entscheidungen ihrer Prekariatsmitarbeiter von der Löschabteilung, einige auf die Meldung von Denunzianten hin, doch das Gros davon höchstwahrscheinlich mit Hilfe von Algorithmen: Zensurautomaten.
Solche Automaten laufen – anders als bei uns ohne Rechtsgrundlage, allein aufgrund des Willens ihrer Betreiber (weiter unten sehen wir, warum) – auch in den USA. Einer davon hat letzte Woche, wie von achgut.com berichtet wurde, die 1776 in Philadelphia veröffentliche Unabhängigkeitserklärung der Vereinigten Staaten, das erste historische Zeugnis moderner Rechtsstaatlichkeit und Demokratie, als „hate speech“ klassifiziert, weil darin die Passage „merciless Indian savages“ vorkommt. Dieses lächerliche und gleichzeitig irgendwie alarmierende Ereignis wirft, abgesehen davon, dass es absolut falsch ist, diese Automaten überhaupt einzusetzen, folgende Fragen auf: Wie funktionieren die Zensurautomaten? Was sagt das über ihre Nutzer? Wie geht es nun weiter?
Zensurautomaten verstehen die Texte, die sie verarbeiten, nicht. Die neusten Automaten werden mit Hilfe extrem komplexer Wahrscheinlichkeitsmodelle betrieben, sogenannter „deep neural networks“ (dNN, mit der Funktionsweise von Neuronen habe diese Gleichungen allerdings gar nichts zu tun, der Name zeugt von Hybris). Diese Modelle berechnen auf der Grundlage menschlicher Beurteilung von Texten aus der Vergangenheit die Wahrscheinlichkeit, dass ein neuer Text „hate speech“ enthält. dNN sind riesige differenzierbare Gleichungen, die als datenabhängige Optimierungsvorschrift wirken.
Diese Fähigkeiten der Modelle sind miserabel
Man erzeugt damit Wahrscheinlichkeitsmodelle, indem man mit Hilfe iterativer Optimierungsverfahren einen Klassifikator erzeugt, der die Texte in „hate“ und „non-hate“ einteilt. Um den Klassifikator zu generieren (man nennt das „training“), gibt man dem Algorithmus möglichst viele sogenannte Trainingstupel, das sind Paare von Text und der dazu gehörigen von Menschen (Annotatoren) angefertigten Textbeurteilung von Texten aus Korpora sozialer Medien, wie beispielsweise von Twitter; man nennt dies auch annotierte Texte.
Die Qualität der Klassifikation hängt von vielen Faktoren ab, doch die wichtigsten sind: Menge der Trainingstupel, Qualität der Trainingstupel und Fähigkeit des Modells, die Zusammenhänge, die „hate speech“ ausmachen, zu detektieren. Diese Fähigkeit ist heute miserabel, wie dieses Paper – dessen Autoren sich nebenbei gesagt auf widerwärtige Weise der heutigen Herrschaftsideologie anbiedern – zeigt. Warum ist das so?
Erstens hat man bei weitem nicht genug Trainingstupel, um die dNN damit wirksam zu trainieren, der zitierte Artikel nutzt je nach Experiment lediglich 2.500 bis 25.000 annotierte Datensätze. Ernsthaftes Training von dNN benötigt mindesten hunderte Millionen, eher aber Milliarden von Tupeln. Zweitens ist die Qualität der Trainingstupel gering. Hohe Qualität besteht dann, wenn nachgewiesen werden kann, dass mehrere Annotatoren die gleiche Annotation vornehmen (hohe Interrater-Reliabilität), was extrem aufwendig und teuer ist. Annotieren unterschiedliche Annotatoren ähnliche oder gleiche Texte verschieden, entsteht Rauschen, aus dem kein wirkungsvolles Wahrscheinlichkeitsmodell trainiert werden kann.
Weil niemand ernsthaft definieren kann, was im objektiven Sinne „hate speech“ ist, da es sich bei diesem Begriff um einen politischen Kampfbegriff handelt, der im hermeneutischen Sinne gar nicht wahrheitsfähig ist, ist es absolut unmöglich, hinsichtlich dieser Annotation eine hohe Interrater-Reliabilität zu erreichen: Das Annotationsansinnen an sich ist sinnlos!
30 bis 60 Prozent Fehklassifikationen
Die Annotation ergeben – anders als beispielsweise hochwertige UNO-Übersetzungen, die als Trainingsmaterial für dNN-Übersetzungsautomaten wie diesen hier genutzt werden, gar keinen brauchbaren Standard. Drittens sind die heutigen dNN gar nicht in der Lage, den Sinn von Sprache mathematisch abzubilden, sondern der mathematische Raum, in den sie die Sprache abbilden, kann nur die Gestalt der Sprache (Morphologie) und einen Teil ihrer Syntax abbilden. Dies wirkt lediglich wie eine verbesserte Schlagwortsuche.
Deswegen erzeugen die dNN viele falsch Positive, wie etwa diese Wendung: „I’m a piece of white trash I say it proudly“, die fälschlicherweise als „hate speech“ klassifiziert wird, während „expecting gender equality is the same as genocide“ im Gegensatz zur humanen Annotation nicht als „hate“ erkannt wird, weil im morpho-syntaktischen Raum des Klassifikators der Vergleich, der hier den Stein des Anstoßes bildet, nicht abgebildet wird (beide Beispiele aus dem oben zitierten Paper).
Insgesamt werden von 100 Texten nach Angaben des Papers je nach Korpus 30 bis 60 Prozent der Texte fehlklassifiziert, nämlich anders als durch die humanen Annotatoren; diese Quote ist im Vergleich zu anderen Entscheidungsautomaten absolut erbärmlich. Mit anderen Worten: Die Zensurautomaten werden mit Datenmüll trainiert und erzeugen noch schlechteren Output-Müll (garbage in, garbage out). Selbstverständlich wissen das die Top-Manager von Social-Media-Unternehmen wir Twitter, Facebook oder Google, den überall sitzen im Vorstand Mathematiker und Informatiker, die die Verfahren gut genug kennen. Dennoch setzen sie diese ein. Warum?
Marc Zuckerberg näht des Kaisers neue Kleider
Die Social-Media-Manager wollen selbstverständlich nicht gegen „hate speech“ kämpfen, ihnen ist diese auch egal, denn sie stört ihr Geschäft, das im Anzeigen mehr oder minder personalisierter Werbung besteht, nicht – möglicherweise befördert sie es sogar, wenn die entsprechende Beiträge viele Leser haben. Sie wissen auch, dass sie das mit den Mitteln der heutigen Algorithmen gar nicht können (jedoch vielleicht in Zukunft, siehe unten). Leute wie Marc Zuckerberg tun es, um den pseudoliberalen Machthabern zu gefallen und ein gefälliges Handeln zu simulieren – ähnlich wie die Schneider, die des Kaisers neue Kleider „nähen“. Denn sie fürchten eine politische Einschränkung ihres Geschäftsmodells, wenn sie nicht den Anschein von Tätigkeit erwecken.
Deswegen zensieren sie in den USA auch freiwillig, ein NetzDG wurde dort gar nicht erst benötigt – weil die gesellschaftliche Macht der Political Correctness dort so hoch ist, dass sie keines Gesetzes mehr zu ihrer Durchsetzung bedarf. Das Ziel der Political Correctness ist die Unterdrückung von Meinungen, die die eigene Herrschaft gefährden. Nur darum geht es beim „Kampf gegen Hate Speech“ und „Kampf gegen rechts“: Berufspolitiker von CDU/CSU, SPD, Grünen, PDS und FDP, von denen viele gar nicht dazu in der Lage sind, ihr Leben anders zu verdienen als durch Parlamentarier-Diäten, parteivermittelte Ämter oder Stiftungsstellen (dazu hat Hans Herbert von Arnim alles nötige gesagt), fürchten um den massenhaften Jobverlust durch freie Wahlen. Um diesen abzuwehren, ohne die eigene politische Ausrichtung aufzugeben, wird die Meinungsfreiheit angegriffen.
Der Kampf der Eliten gegen die grundlegende Freiheit der Meinungsäußerung wird weitergehen. Dabei wird selbstverständlich übergangen, dass es wirkungsvolle Möglichkeiten gibt, freie Rede und Kommunikation, die zu weit geht (Beleidigung, üble Nachrede, Verleumdung, StGB §§185-187 sowie Kunsturheberrechtsgesetz §23(2), der die Verbreitung von Bildern untersagt, die berechtigte Interessen des Abgebildeten verletzen) zu betrafen. Eine Aufhebung der Anonymität in sozialen Medien würde daher schon reichen, all dies zu verhindern. Doch das reicht dem Establishment nicht: Beleidigungen und verwandte interessieren sie in Wirklichkeit nicht im geringsten, Sie wollen ja vielmehr Alternativmeinungen unterdrücken und weiter die öffentliche Meinung kontrollieren.
Dass dies immer noch funktioniert, sieht man an den Wahlergebnissen in Frankreich und Deutschland 2017 sowie den Umfragewerten in Deutschland, bei denen etablierte Parteien immer noch, trotz der weiblichen oder jüdischen Opfer der Migrantengewalt und den offensichtlichen Folgen des staatlichen Überkonsums bei gleichzeitigem manifesten Investitionsdefizit in Infrastruktur, Sicherheit und Bildung mehr als 80 Prozent der Stimmen auf sich vereinigen.
Unterdessen wird massiv in bessere Sprachtechnologie investiert, da dies der Schlüssel zum Bau wirksamer Automaten ist, nicht nur im Zensurbereich. In den nächsten 5 bis 10 Jahren werden sich Technologie verbreiten, mit deren Hilfe man zumindest in ausgewählten Sprachbereichen unerwünschte Rede zuverlässig finden und unterdrücken kann, auch subtile, anspruchsvolle Texte.
Greift der Staat zu diesem Mittel und wendet es auch diesseits der social media an, wird spätestens dann die Gegenöffentlichkeit in den digitalen Untergrund getrieben. Doch noch ist es nicht so weit, die die Freiheit hassenden Pseudoliberalen bilden nur eine Minderheit von unter 25 Prozent der Bevölkerung, und die Macht ihrer Repräsentanten ist beschränkt und immer noch abwählbar.
Lesen Sie zu diesem Thema auch:
Johannes Eisleben: Das Lesen der anderen
Johannes Eisleben: Internet-Propaganda – wäre Luther Rechtspopulist?
Achse-Dossier: Zensur 4.0