“Alexa, zieh dich schon mal aus!” rief er auf dem Weg zum Bad seiner Freundin zu. “Ich habe dich nicht verstanden,” antwortete mit sanfter Stimme aus dem Wohnzimmer Amazon Alexa, während die Freundin zeitgleich aus dem Schlafzimmer “Ich freu mich schon auf Dich!” jubelte.
Offensichtlich versteht Maschinen-Alexa die Situation nicht, ganz im Gegensatz zu Alexa aus Fleisch und Blut. Warum? Die heutigen sogenannten Künstliche-Intelligenz-Algorithmen (KI) verstehen gar nichts. Sie versuchen lediglich, den Eingabesatz des Menchen, eine Input-Zeichenkette, um eine Output-Zeichenkette, den Ausgabesatz, zu ergänzen. Dabei soll das entstehende Input-Output-Satztupel dem Trainingsmaterial, das zur Erzeugung des Algorithmus verwendet wurde, mit möglichst hoher Wahrscheinlichkeit entsprechen. Das Trainingsmaterial besteht aus für den Anwendungsfall wünschenswerten Paaren von Eingabesätzen und Ausgabesätzen. Mit Hilfe sogenannter “deep neural networks”, die mit der Funktion echter Neuronenverbände allerdings nichts zu tun haben, können Gleichungen erstellt werden, die es erlauben, die Eingabesätze durch Ausgaben zu ergänzen. Dabei wird berechnet, wie wahrscheinlich ein Ausgabesatz angesichts des Eingabesatzes ist, und es wird der wahrscheinlichste zur Ausgabe verwendet.
Dieses Verfahren wird euphemistisch “machine learning” genannt, doch lernt die Maschine gar nichts, sondern ein menschlich metaparametrisierter Algorithmus erzeugt einen Operator, der die Beziehungen zwischen Eingabe- und Ausgabesätzen im Trainingsmaterial mathematisch abbildet. Gibt man dem einen Eingabesatz, der im Trainingsmaterial nicht vorkommt, berechnet der Algorithmus daraus einen Ausgabesatz mit sehr geringer Wahrscheinlichkeit. Dann erzeugt ein Filter eine Atnwort wie “Ich habe dich nicht verstanden.” oder “Könntest du das bitte anders ausdrücken.” oder “Das weiß ich nicht.”; derart leere Antworten können auch ohne Filter direkt durch Training erzeugt werden.
Wird sich daran etwas ändern? Stehen uns Maschinen bevor, die überzeugend Dialoge mit uns führen können? Ganz und gar nicht. Beginnen wir mit dem Menschen.
Das menschliche Sprechen ist eine Form des Handelns, das wissen wir seit Arnold Gehlen, der dies in seiner 1938 erschienenen Würdigung Schopenhauers beschrieben hat, was dann John Langshaw Austin1955 in „How to do things with words.” popularisierte. Menschen handeln, um ihre seelischen Intentionen zu verwirklichen. Im obigen Beispiel möchte der Sprecher Sex mit Alexa haben, und Alexa stimmt dem zu, weil sie auch Lust hat. Intentionen sind die Treiber der Sprache, jeder Sprechakt ist Ausdruck des menschlichen Willens, der beispielsweise auch die Intention der Gleichgültigkeit umfassen kann.
Im Gespräch halten Menschen ihre Intentionen gegeneinander, indem sie Sprechakte ausführen, die dem Gegenüber einen Sinn vermitteln sollen. Der Sinn des Gesprochenen ist dessen Bedeutung für meine Intentionen. Meine Intentionen bestimmen, wie ich etwas ausdrücke und eine Äußerung meines Gegenübers interpretiere. Dabei modifiziert das Gespräch meine Intentionen, die sich in dessen Verlauf dynamisch entwickeln.
Um Absichten und Sinn auszudrücken und zu verfeinern, steht dem Menschen ein riesiges Arsenal von Modulatoren zur Verfügung, das grob in folgende Kategorien gegliedert werden kann:
1. Sprecheridentität und Gesprächskontext
2. Sprachökonomie: Ambiguität und implizite Bedeutung
3. Sprachstruktur: non-verbale Anteile, Sprachwahl und -code/-register, Satzbildung, Wortwahl, Tonfall
4. Sprachmodalität: Stil der Äußerung (Frage, Aussage, Befehl, Bitte etc.)
5. Sprachdynamik: Stil der interaktiven Nutzung von Sprache im Gespräch
Varianzfähigkeit der Sprache als Motor der menschlichen Kultur
Durch die Kombination dieser Elemente ist es möglich, Äußerungen und aus ihnen zusammengesetzte Gespräche nahezu beliebig zu variieren. Letztlich ist diese Varianzfähigkeit der Sprache der Motor der kulturellen Entwicklung der Menschheit im weitesten Sinne. Die gesamte menschliche Kultur beruht darauf. Schopenhauer: „Durch Hilfe der Sprache allein bringt die Vernunft ihre wichtigsten Leistungen zustande, nämlich das übereinstimmende Handeln mehrerer Individuen, das planvolle Zusammenwirken vieler Tausende, die Zivilisation, den Staat.” (Die Welt als Willen und Vorstellung, §8).
Wir greifen hier nur einen Bruchteil heraus: Beispielsweise kann durch Sprachökonomie bei Sprechern, die sich kennen, extrem effektiv kommuniziert werden, während bei Fremden durch zu viel davon Missverständnisse entstehen. Soziolekt, Satzbau und Vokabular sind entscheidende Faktoren der Sprachvarianz, man denke an die Spannweite von Liturgie oder Richterspruch bis zu Jugendslang oder Rotwelsch. Die Dynamik des Gesprächs vertieft die Varianz zusätzlich, da ein Gespräch als sein eigener Kontext dient und der bisherige Verlauf die Intentionen der Sprecher dynamisch verändert. Dadurch entstehen neue Äußerungs- und Interpretationsmuster, mit denen die Sprecher das Gespräch bewusst oder unbewusst weiter gestalten.
Rechenmaschinen haben im Gegensatz zum Menschen keinen Willen und keine Intentionen. Sie können daher auch nicht aktiv Äußerungen tätigen oder interpretieren. Denn eine Äußerung bedeutet, seinen Willen direkt oder indirekt kundzutun. Und die Interpretation der Äußerung des Gesprächspartners heißt immer, sich die Frage zu stellen: Was bedeutet das für mein Leben? Wie soll ich darauf reagieren? Dazu ist nur in der Lage, wer eigene Absichten hegt. Maschinen haben so lange, wie wir nicht wissen, wie man diese mathematisch modellieren kann, keine Absichten. Und wir können heute kein formales Modell unseres eigenen Willens erstellen, geschweige denn es einer Maschine einbauen. Daher wird es auch keine „Herrschaft der Maschinen“ geben, wie es einige Wissenschaftler befürchten.
Was können Rechenmaschinen eigentlich leisten? Computer können nur den Teil der Mathematik bewältigen, den eine Turing-Maschine berechnen kann. Die hohe Varianz menschlicher Sprache macht es unmöglich, mathematische Modelle für Dialoge oder Konversationen zu erzeugen, die aus menschlicher Sicht plausibel wirken. Das heutige Sequenzmodell von Sprache kann nie passen, weil es fast nie identische Dialoge gibt – noch nicht einmal in stereotypen Situationen wie beispielsweise an der Discounter-Kasse.
Denn auch dort sind kontextatypische Äußerungen zu hören wie: “Sie sehen heute aber gut aus!” oder “Warum sind sie so unhöflich? Gefällt Ihnen Ihr Tattoo nicht mehr?” Es gibt de facto keine Standardsituationen in der zwischenmenschlichen Begegnung und daher auch keine repetitiven Muster, die eine heutige KI lernen kann.
Mit Maschinen wird es auf absehbare Zeit nur sehr rudimentäre Dialoge geben, viel mehr als einfache Befehle werden sie auf absehbare Zeit nicht ausführen können. Schon die Buchung einer Reise (Flug und Hotel) gelingt nur mühsam – derzeit bei weniger als 10 Prozent der getesteten Dialoge – nämlich dann, wenn der Mensch sich im mathematisch abgebildeten Erwartungshorizont bewegt.
Trost für Romantiker
Interessant an der Debatte um Alexa ist auch die gesellschaftliche Folie auf der sie stattfindet. Der verbreitete Fortschrittsglaube in Sachen Alexa einerseits und die apokalyptische Technikangst anderseits sind zwei Seiten der gleichen Medaille.
Unsere apokalyptisch aufgeladene, fanatisiert-technikfeindliche Öffentlichkeit will derzeit keine nüchternen wissenschaftlichen Analysen zum Thema hören. Viel lieber glaubt man die Neuen Zehn Gebote. Doch die Dominanz des naturwissenschaftlich-technischen Weltbilds ist auf die Dauer nicht zu erschüttern, da alle Menschen ein sicheres, schmerz- und hungerfreies Leben wollen: Nach der Neolithischen Revolution, die die Sicherheit der Nahrungsmittelproduktion drastisch erhöhte, wollte nach einer Übergangs- und Eingewöhnungszeit auch niemand mehr weg vom Ackerbau und zurück zum Jagen und Sammeln.
Heute ist es ähnlich. Einige Zeitgenossen, besonders viele in Deutschland, mindestens 20 Prozent, befinden sich noch im geistigen Übergang vom Agrar- zum Technologiezeitalter. Wir wünschen ein baldiges Ende dieser speziellen Pubertät! Danach lebt es sich wieder besser, wenn auch nüchterner. Und es gibt auch Trost für Romantiker. Denn auch bei der Technik wachsen die Bäume nicht in den Himmel:
“Alexa, mach dass Du wegkommst! Dein Zug!” – “Welchen Anzug meinst Du?” ertönt die sanfte Stimme. Die echte Alexa zieht die Haustür lachend hinter sich zu.