… wenn Roboter menschlich kommunizieren
Zwischenmenschliche Kommunikation funktioniert per Sprache einfach und effizient: Wir fragen, wenn wir Informationen brauchen, oder bitten, um eine Aktion zu veranlassen. Dienstleistungen und Informationen, bedienbar per Sprache, bieten daher einen intuitiven Zugang für alle Benutzergruppen. Kein Wunder also, dass erhebliche Summen in die Erforschung von NLP (Natural Language Processing) und NLU (Natural Language Understanding) fließen, um Roboter zu erschaffen, die unsere Sprache sprechen.
Bis heute sind sprachbasierte, automatische Services jedoch von starren Menü-Systemen geprägt: Undurchdringbare Strukturen und die Beschränkung auf einzelne Wörter oder Ziffern erschweren vielen Menschen die Benutzung. Die Technik ist allerdings wesentlich weiter, als der Blick in die Praxis glauben lässt: Anrufer könnten mit einem Voicebot durchaus frei sprechen und in spontanen Sätzen reden – annähernd wie mit einem Menschen.
Natural Language Processing und -Understanding macht Natürlichsprachlichkeit möglich
Ist von „natürlichsprachlichen“ Dialogsystemen / Voicebots die Rede, erfüllen diese zumindest einige der folgenden Kriterien für spontane Sprache:
Gemischte Initiative: Wer wird aktiv?
Wer ergreift im Gespräch die Initiative – das System oder der Anrufer? Herkömmliche Systeme stellen dem Nutzer so lange Fragen, bis es eine Reaktion ermittelt hat – häufig eine Geduldsprobe für die Anrufer, die die vorgegebenen Menüpunkte standhaft abarbeiten müssen. Weitaus angenehmer ist es, wenn der Anrufer in das Gespräch eingreifen kann, um beispielsweise Dialogschritte zu überspringen. Vor allem erfahrene Nutzer, die regelmäßig mit dem System telefonieren, profitieren davon. Systeme mit gemischter Initiative stehen Anrufern, die aus eigenem Antrieb kaum aktiv werden, jedoch helfend zur Seite und führen es durch das Menü.
„Wie kann ich Ihnen helfen?“ ist eine typische Frage für natürlichsprachliche Voicebots mit gemischter Initiative. Sie gibt den Anrufern die Möglichkeit, mit dem System ohne vorgegebene Menüstruktur zu sprechen.
Überbeantwortung: Mehrere Informationen in einem Dialogschritt verarbeiten
Offene Fragen führen dazu, dass Anrufer mehrere Informationen in einem Satz nennen, die ein herkömmliches System in mehreren Dialogschritten abrufen würde:
Dieses Beispiel zeigt deutlich, dass Systeme, die eine Überbeantwortung mittels Natural Language Processing und NLU erlauben, die Dialogschritte deutlich reduzieren – und die Nerven des Anrufers erheblich schonen. Ganz egal an welchem Menüpunkt: Selbst wenn das System explizit nur nach einer Information fragt, kann es weitere Angaben dennoch richtig zuordnen.
Korrektur: Wo gearbeitet wird, passieren Fehler
Selbst Gespräche mit einem Mitarbeiter verlaufen nicht immer fehlerfrei – mal geben Anrufer falsche Informationen, die sie dann korrigieren, oder Mitarbeiter missverstehen Antworten der Anrufer.
Natürlichsprachliche Systeme, die sich am Gespräch mit einem Menschen orientieren, sollten also auch mit Fehlern umgehen können und die Möglichkeit zur Berichtigung einräumen. Eindeutige Korrekturen, wie „Ich habe einen Fehler gemacht“ oder „Jetzt hast du mich aber falsch verstanden“ kann ein natürlichsprachliches System erfolgreich verarbeiten.
Ist die Möglichkeit zur Korrektur dagegen nicht gegeben, sind Anrufer schnell frustriert, die in einer Frage-Antwort-Sackgasse landen:
System: „Wohin möchten Sie fliegen?“
Anrufer: „Nach Rom.“
System: „Wann möchten Sie nach Rom fliegen?“
Anrufer: „ Oh, eigentlich möchte ich ja nach Mailand und nicht nach Rom.
System: „Ich habe Sie leider nicht verstanden. Wann möchten Sie fliegen?“
Doch auch die moderne Sprachverarbeitung mit Natural Language Processing stößt an ihre Grenzen, wenn Anrufer das System indirekt berichtigen möchten:
Anrufer: Wir möchten morgen nach Rom fliegen.
System: „Sie möchten also morgen nach Rom fliegen?“
Anrufer: „Ja, aber noch mit zwei weiteren Leuten.“
Was ein Mitarbeiter problemlos versteht, ist für das System ein wahrer Stolperstein: „Ja“ fasst das System als Bestätigung auf, und das System überhört eventuell die Korrektur.
Auch Verneinungen stellen eine Herausforderung dar:
Anrufer: „Ich möchte ein Zimmer reservieren, aber kein Raucherzimmer.“
Auch moderne Systeme hören vor allem das Stichwort „Raucherzimmer“ – so dass sie genau das Gegenteil verstehen.
Natürlichsprachliche Dialogsysteme räumen also zwar die Möglichkeit zur Korrektur ein, allerdings stoßen auch sie bei indirekten Korrekturen oder Verneinungen an ihre Grenzen.
Rückbezüge: Verstehen aus dem Zusammenhang
Anhand von Pronomen (er, sie, es) beziehen wir uns häufig auf etwas Vorangegangenes. Auf was genau, wird meist nur aus dem Zusammenhang klar:
„Mein Kind isst kein Fleisch. Wie kann ich es ersetzen?“
„Mit einem Hund. Hunde essen gerne Fleisch.“
Für moderne, natürlichsprachliche Dialogsysteme stellen Rückbezüge dank Natural Language Processing und NLU meist kein Problem dar, so dass sie auch folgende Aussage verstehen:
System: „Der Film After Truth wird in Erlangen im Kino Manhattan um 20 Uhr gezeigt.“
Anrufer: „Läuft der auch früher?“
Implizite Bestätigung: Missverständnisse gleich aus dem Weg räumen
Das System muss sichergehen, dass es den Anrufer richtig verstanden hat. Doch anstatt nachzufragen, kann die Bestätigung auch geschickt in die nächste Frage eingebaut werden:
Anrufer: „Ich möchte nach Rom fliegen.“
System: „Wann möchten Sie nach Rom fliegen?“
Voraussetzung ist natürlich, dass der Anrufer korrigieren kann, falls das System falsch liegt.
Natürlich wirken
Peilt man ein menschenähnlich wirkendes System an, sollte es den Anrufer begrüßen, sich von ihm verabschieden sowie Danke und Bitte sagen.
Roboterhafte Stimmen wirken unprofessionell und verhindern, dass Anrufer in ganzen Sätzen reden. Anstatt einer künstlichen Stimme wirken „Sprachschnipsel“ von professionellen Sprechern wesentlich natürlicher.
In einem normalen Gespräch kommt es immer wieder zu Verzögerungen („äh“) oder auch zu einem Räuspern. Natürlichsprachliche Systeme können damit umgehen und trotzdem den Sinn der Aussage verstehen.
Die Technik hinter dem Verstehen: Natural Language Unterstanding und Natural Language Processing (NLU und NLP)
Der alte Traum der Menschheit, mit einem Roboter zu sprechen, ist zu einem nicht unbeträchtlichen Teil also schon wahr geworden. Welche Techniken stehen hinter dem Science-Fiction-Szenario?
NLP – Natural Language Processing
NLP ist eine Unterkategorie der Künstlichen Intelligenz und konzentriert sich darauf, den durch Spracherkennung verschrifteten Text zu strukturieren, zum Beispiel durch das Parsen. Für eine einfache Schlüsselworterkennung reicht Natural Language Processing daher aus: Erkennt das System das Schlüsselwort „Rechnungskopie“, erfragt es die Rechnungsnummer und gegebenenfalls noch andere Informationen und sendet dem Anrufer die Rechnungskopie daraufhin automatisch zu.
Hochentwickelte, natürlichsprachliche Systeme brauchen jedoch auch NLU:
Natural Language Understanding – NLU
NLU ist zwar als Einzelkomponente möglich, gehört aber meist als Unterkategorie zum Natural Language Processing.
Vereinfacht ausgedrückt konzentriert sich Natural Language Processing ohne NLU unter anderem darauf, was gesagt wurde, während Natural Language Understanding aufdeckt, was damit gemeint ist. Um die Bedeutung einer ganzen Aussage oder Frage zu ermitteln, reichen Schlüsselwörter nicht aus. Das System muss dazu die Grammatik, die für uns so selbstverständlich ist, ansatzweise verstehen. Was ist in einer Aussage das Subjekt und was das Objekt? Worauf beziehen sich die Pronomen?
Die Voraussetzung dazu sind ein umfassendes Lexikon sowie grammatische Regeln, auf die das System zugreifen kann. Auch kompliziertere Aussagen versteht das System so mittels NLU:
„Hallo, ich habe heute ein Paket bekommen und es schon geöffnet. Kann ich es trotzdem noch zurückschicken?“
Eine einfache Schlüsselworterkennung wäre hier maßlos überfordert.
Ob nun ein einfaches, sprachgesteuertes Menüsystem oder ein hochentwickelter, natürlichsprachlicher Voicebot – Natural Language Processing ist immer dabei. Aber erst NLU macht den erfolgreichen Umgang mit den oben erwähnten Kriterien für Natürlichsprachlichkeit möglich und lässt den Sprachroboter menschenähnlich erscheinen.
Natürlichsprachliche Dialogsysteme: Die Spülmaschine von heute
Komplexere Aussagen zu verstehen ist schwieriger, als nur vorgegebene Optionen auszuwählen: Natürlichsprachliche Systeme können daher fehleranfälliger sein als starre Menüsysteme. Doch bestechen moderne Sprachdialogsysteme durch ihre Benutzerfreundlichkeit, die die Anrufer deutlich schneller ans Ziel führt. Sprachassistenten wie Alexa und Siri machen es vor – und bringen moderne Contact Center in Zugzwang, die der gestiegenen Erwartungshaltung der Anrufer nachkommen müssen.
Stellen wir uns einmal das klassische Bild einer Hausfrau aus den 60er Jahren vor: Etliche waren zunächst gegen den Kauf einer Spülmaschine – die hohen Kosten standen im Gegensatz zu dem noch unbekannten Komfort: „Das braucht man doch nicht!“ – Doch hatten sie erst einmal den Luxus genossen, war das gute Stück aus dem Alltag nicht mehr wegzudenken.