Der Voicebot

Sie möchten mehr über Voicebots erfahren? Hier finden Sie alles Wissenswerte:

Was ist ein Voicebot eigentlich genau?

Voicebot im Kundenservivce

Chatbots sind dem digitalen Weltenbummler mittlerweile ein fester Begriff: Sie beantworten schriftliche Nutzeranfragen mit Hilfe von Künstlicher Intelligenz automatisch – und simulieren sozusagen den Schriftverkehr mit einem Menschen. Der Begriff „Voicebot“ ist dagegen bislang noch weniger verbreitet. Die neue Wortschöpfung ist in Anlehnung an „Chatbot“ entstanden: „Voice“ aus dem Englischen für „Stimme“ bzw. „Artikulierung“ – verschmolzen mit der Abkürzung „bot“ für „robot“. Ein „Stimmenroboter“ also. Was der Chatbot auf der schriftlichen Ebene macht, leistet der Voicebot mündlich.

So könnte Sie ein Voicebot beispielsweise am Telefon begrüßen:

Guten Tag, ich bin Botty – der Voicebot der Sympalog Voice Solutions GmbH. Meine Aufgabe ist es, Ihnen zu helfen und auf Ihre Fragen zu antworten. Also bitte schießen Sie los.

Anders als bei vielen herkömmlichen Voice Portalen („Sagen Sie „Angebot“, wenn Sie ein Angebot möchten“) fragt der Voicebot also keine Schlüsselwörter ab, sondern stellt eine offene Frage. Die Anrufer antworten also je nach Anliegen auf unterschiedlichste Weise – eine technische Herausforderung, der der Voicebot gewachsen sein muss. Und dieser Dialog kann nicht nur der Vorqualifizierung dienen, sondern auch einen kompletten Servicefall abwickeln.

So funktioniert’s: Die Technologie des Voicebots

Zunächst muss der Voicebot den Anrufer verstehen: In den letzten Jahren wurden große Datenmengen gesammelt, die die Spracherkennung enorm verbessert haben. Sprache zu erkennen bedeutet allerdings nur, dass die Sprache – wie in einem Diktat – erfasst und als Text niedergeschrieben wird. Der Sinn hinter den Aussagen ist dabei aber noch nicht klar. Mittels NLP (Natural Language Processing) und NLU (Natural Language Understanding) geht das System der Bedeutung hinter den Worthülsen auf den Grund: NLP (Natural Language Processing) steht – kurz gesagt – für die Suche nach Wörtern oder Phrasen in einer Frage, zu der dann die dazu passende, gespeicherte Antwort ausgegeben wird. „Preis“ oder „kostet“ sind beispielsweise Schlüsselwörter, die das Sprachdialogsystem Preise „ausspucken“ lässt.

Sobald die Fragen aber  komplizierter werden, ist NLU unerlässlich: Nicht nur Schlüsselwörter, sondern die ganze Frage nimmt das System mit Hilfe einer KI unter die Lupe: Was ist das Subjekt und was das Objekt? Worauf beziehen sich die Pronomen? Um welchen Vorgang geht es? So können auch komplizierte Anfragen wie „Ich will die Ware umtauschen – ich habe sie aber schon ausgepackt“ beantwortet werden.

Um auf die verstandenen Fragen zu antworten, erhält das Sprachdialogsystem „Handlungsanweisungen“: Sorgfältig müssen dazu alle Fragen, die Anrufer häufig stellen, kategorisiert werden. Wie der Voicebot auf die häufigen Fragen antworten soll, wird in einer Dialogspezifikation festgehalten, die je nach Reaktion des Anrufers den weiteren Gesprächsverlauf bestimmt.

Die „Sprachsynthese“ wandelt den Antworttext des Sprachdialogsystems, der in der Spezifikation festgehalten ist, wieder zu Gesprochenem um. Damit die Ausgabe des Textes ansprechend klingt, nehmen professionelle Sprecher die Antworten oder Antwort-Teile im Vorhinein auf. Moderne maschinelle Text-to-Speech-Systeme haben mittlerweile jedoch ein solches Niveau erreicht, dass sie ebenfalls ohne große Qualitätsverluste eingesetzt werden können.

Von IVR zu AI: Flexibel, reaktionsfähig und benutzerorientert

Herkömmliche IVR-Systeme führen den Anrufer und leiten ihn mittels Frage/Antwort-Bäumen durch das festgelegte Gesprächsschema durch. Moderne Voicebots jedoch können auf den Menschen, der den Gesprächsablauf bestimmt, reagieren.

Nicht der Anrufer passt sich dem Voicebot an, sondern der Voicebot passt sich dem Anrufer an.

Anrufer müssen deshalb die Möglichkeit haben, Voicebots zu unterbrechen, so dass sie Gespräche, die in die falsche Richtung gehen, umlenken können. Außerdem wird von modernen Voicebots erwartet, dass sie Anrufern Hilfestellung geben, falls ihre Anfragen zu unpräzise sind. Und nicht zuletzt muss das System mit Rückfragen des Anrufers, die sich auf vorangegangene Teile des Dialogs beziehen, umgehen oder eingeschobene Zusatzinformationen sowie korrigierte Versprecher verarbeiten können.

Chatbot und Voicebot: Auf einer Plattform – oder ist die Zukunft hybrid?

Ist der Voicebot gleichzusetzen mit einem Chatbot – lediglich erweitert um die sprachliche Komponente? Zum einen ja: Beide benötigen den Zugriff auf eine Wissensdatenbank bzw. ein FAQ-System, das sie mit Informationen speist. Beide geben den Kunden zu den gleichen Themen Hilfestellung.

Der Unterschied liegt jedoch in der Natur der schriftlichen und mündlichen Rede: Die Abfrage der nötigen Informationen und die Aufbereitung der Sprachausgabe folgt anderen Mustern. In Gesprächen wird außerdem unterbrochen, Informationen eingeschoben oder auf vorangegangene Informationen Bezug genommen – für einen Servicemitarbeiter kein Problem, doch für einen Voicebot eine Herausforderung, der nur Experten gewachsen sind.

Die Spezialisten, die sich auf Chatbots fokussieren, sollten also eng mit Voicebot-Experten, die mit den Eigenheiten des mündlichen Gesprächs vertraut sind, zusammenarbeiten – andernfalls entsteht unnötig viel Aufwand bei der Vernetzung beider Bots mit einer Wissensdatenbank.

Was sind die Vorteile des Voicebots?

Die Vorteile des Voicebots liegen auf der Hand und decken sich mit den Vorteilen, die auch ein Chatbot bietet: Eine hohe Anzahl wiederkehrender Fragen wird sofort beantwortet – die Zeit der Service-Mitarbeiter jedoch geschont.

Neben der Mail und dem Web Self Service greifen nach wie vor viele Kund:innen zum Telefonhörer. Voicebots sind daher eine kostengünstige Alternative, auch wenn nach wie vor Mitarbeiter:innen im Hintergrund unabdingbar sind, die sich um schwierigere Kundenanliegen kümmern.

Der Voicebot – eine neue Erfindung?

So neu die Wortschöpfung „Voicebot“ auch sein mag – eine brandneue Erfindung ist er nicht. Bereits Anfang der 1990er Jahre wurden die weltweit ersten natürlichsprachlichen Dialogsysteme „Evar“ und „FränKi“ am Erlanger Lehrstuhl für Mustererkennung entwickelt. Evar war ein Auskunftssystem zur Deutschen Bahn und FränKi wusste stets, in welchem Kino der Region und wann der neueste James Bond lief. „Damals waren wir weltweit führend, sogar vor den Amis“, sagt Prof. Elmar Nöth, der Evar und FränKi mitentwickelt hatte.

Zur Vermarktung dieser Produkte wurde die Firma „Sympalog“ gegründet. „Heute schauen wir bereits auf zahlreiche Projekte zurück und verfügen über jede Menge Erfahrung im Bereich der natürlichsprachlichen Dialogsysteme beziehungsweise Voicebots“, so der Sympalog-Geschäftsführer Dr. Martin Schröder.

Warum die Künstliche Intelligenz erst jetzt ihre Blüten voll entfaltet

Künstliche Intelligenz für VoicebotsWährend viele Anrufer in den 1990er Jahren noch unsicher waren und sie nur mit Überwindung mit einem Sprachroboter redeten wie mit einem Menschen, sind digitale Assistenten wie Siri, Alexa oder Google Assistant nun auf dem Vormarsch. Und verändern die Kundenansprüche.

Mit einem Sprachassistenten zu reden ist für viele zu einer Selbstverständlichkeit geworden. Herkömmliche IVR-Systeme (Interactive Voice Response), die keine offenen Fragen zulassen, halten nicht Schritt mit der gestiegenen Erwartungshaltung der Kunden. Und während viele Menschen Sprachroboter früher generell ablehnten, prangern sie heute nur schlechte Sprachanwendungen an, die nicht das volle Spektrum des technisch Machbaren ausschöpfen. Die Künstliche Intelligenz macht natürlichsprachliche Dialoge schon länger möglich – geschätzt werden die Chancen, die sich dadurch auftun, allerdings erst jetzt wirklich.

Der Paukenschlag: ChatGPT

Ende 2022 stand die Welt Kopf und staunte mit großen Augen: Das US-amerikanische Unternehmen OpenAI veröffentlichte seinen revolutionären Chatbot ChatGPT. Innerhalb von nur fünf Tagen registrierten sich weltweit eine Million Nutzer und im Laufe des Jahres 2023 wurde ChatGPT mit der Version 4.0 deutlich verbessert. Examensprüfungen meisterte GPT-4 bei Tests in den USA mit Auszeichnung.

Zwar scheint der öffentliche Hype um Large Language Models ein wenig abgeklungen zu sein, doch ist der Einzug der KI in zahllose Bereiche in vollem Gange. Auch die Anbieter im Contact-Center-Bereich reagieren schnell und bauen die KI in ihre Produkte ein.

Ohne KI geht fast schon nicht mehr.

Jedoch ist der Kenntnisstand der Verantwortlichen im Contact Center über Grenzen und Einsatzmöglichkeiten der KI sehr unterschiedlich und einige haben nur recht diffuse Vorstellungen. Und zwar nicht nur von den Chancen, die die KI bietet, sondern auch davon, wie sie das recht vage Projekt „Mehr KI“ am besten in Angriff nehmen. Auch fehlen noch entsprechende Vorbilder, denen man nacheifern kann, denn große Projekte mit entsprechenden Effizienzgewinnen sind noch rar. Ganz zu schweigen von dem psychologischen Effekt: „Wenn die das können, können wir das auch!“

Und noch ein Hindernis steht der KI im Wege: Im laufenden Betrieb alle Prozesse mal eben so „KI-tauglich“ zu machen, ist unmöglich.

ChatGPT und Voicebots: Der Entwicklungsstand

Wie helfen ChatGPT & Co. auf dem aktuellen Stand dabei, Voicebots zu erstellen?

Sollen Large Language Models bei der Entwicklung von Voicebots Unterstützung leisten, müssen sie mit dem Unternehmenswissen verknüpft sein. Sämtliche Daten „einfach so“ hochzuladen, ist allerdings technisch nicht möglich und widerspricht den Prinzipien des Datenschutzes und der Vertraulichkeit.

OpenAI stellt teilweise Zugriff auf ChatGPT über die Azure-Cloud bereit und entwickelt seine Schnittstellen weiter – mit PlugIns oder einer Function-API, mit deren Hilfe auch aktuelle Informationen in eine ChatGPT-Antwort einfließen. Die Entwicklung sogenannter „Retrieval Agents“, die Informationen mittels KI aus dem Datenpool ziehen, ist in vollem Gange.

Doch auch die beste KI kann keine guten Ergebnisse liefern, wenn die zugrunde liegenden Daten unvollständig oder gar falsch sind. Entscheidend für den erfolgreichen Einsatz von KI ist daher eine hohe Datenqualität, die Verantwortliche wie „Data Scientists“ ständig überwachen.

„ChatGPT“ wird häufig als Synonym für KI und Large Language Models im Allgemeinen verwendet. Das ist jedoch zu einfach. Denn es gibt verschiedene Modelle für unterschiedliche Aufgaben, deren Hardwareanforderungen (Cloud/lokal) und Preise variieren.

Für einen Voicebot, der telefonisch schnelle Antworten liefert, ist die Ausführungsgeschwindigkeit von großer Bedeutung. ChatGPT-Nutzern ist oft nicht bewusst, wie langsam die KI antwortet – denn im schriftlichen Kontext fällt das geringe Tempo nicht auf. Doch am Telefon ist gerade die Schnelligkeit entscheidend, denn längere Pausen verunsichern Anrufer und führen zu hohen Auflegeraten. Obwohl Large Language Models also erstaunliche Ergebnisse liefern, sind sie für das Telefon auf dem jetzigen Entwicklungsstand – auch aufgrund der Hardware-Ressourcen und der Kosten – nur bedingt geeignet.

Im Analyse- und Verbesserungsprozess sind wir jedoch nicht an solche Einschränkungen gebunden. Und hier bringen Large Language Models entscheidende Vorteile:

Agilität trifft GPT

Mit dem Wandel von statischer, touch-tone gesteuerter IVR hin zu frei kommunizierenden Voicebots gewinnt die Anpassung und Betreuung bestehender Systeme stark an Bedeutung. Moderne Voicebots müssen stets auf dem neuesten Stand sein und sich immer wieder aktuellen Situationen anpassen.

Und mit dem Einzug agiler Methoden auch im Contact Center steigen die Anforderungen an die Technik: Voicebots müssen daher Werkzeuge für automatische Tests über alle Bereiche des Systems (Spracherkennung, Verstehenskomponente, Dialogmanagement) anbieten. Eine Art „Warnsystem“, das sofort bemerkt, wenn Änderungen an einer Stelle zu Fehlern an anderer Stelle führen.

Gerade bei der Pflege und Verbesserung bieten Large Language Models einen entscheidenden Vorteil und optimieren konkret vor allem die Spracherkennung und die Intent Recognition:

Spracherkennung

Liefert die Spracherkennung die richtigen Wörter? Die korrekte Feststellung der Äußerungen ist die Grundlage für die Antworten der KI. Um die Qualität der Spracherkennung stetig zu verbessern, werden Sprachaufzeichnungen früherer Telefongespräche durch verschiedene Spracherkenner geschickt und die Ergebnisse miteinander verglichen. Dafür eignen sich auch Spracherkenner, die für den produktiven Einsatz im Voicebot zu langsam sind oder besondere Hardware erfordern. Verbesserungsbedarf fällt auf diese Weise schnell auf und der produktive Erkenner kann entsprechend korrigiert werden.

Intent Recognition

Einfach ausgedrückt ist die Intent Recognition nichts anderes als das Herausfiltern der Absicht des Anrufers. Denn der Voicebot klassifiziert die Äußerungen der Anrufer:innen und ordnet sie einem Themengebiet zu. Produktive KI-Systeme müssen innerhalb von etwa 30 Millisekunden antworten und verfügen nicht über das Allgemeinwissen von Large Language Models. Im Nachhinein jedoch geben Large Language Models, die langsamer, aber oft qualitativ besser arbeiten, wertvolle Hinweise darauf, ob der Voicebot die Absicht der Anrufer richtig erfasste und die Klassifizierung korrekt war.

Außerdem eignen sich Large Language Models hervorragend für die Suche nach variierenden Äußerungen, da Anrufer:innen häufig ein und dieselbe Absicht mit vielen verschiedenen Wörtern ausdrücken. Die vielfältigen Aussagen der KI dienen als Grundlage für das Training des Spracherkenners.

Doch trotz der bahnbrechenden Neuerungen, die ChatGPT & Co. mit sich bringen, bleibt der Mensch dem Bot weiterhin durch sein Allgemeinwissen und Sprachverständnis überlegen. Setzt er die KI jedoch geschickt ein, nimmt sie ihm Routineaufgaben zuverlässig ab, so dass er sich auf schwierige und anspruchsvolle Aufgaben konzentrieren kann.

Wo Voicebots am besten helfen: Einsatzmöglichkeiten

Voicebots sind heute in der Lage, nahezu jede Hotline zu unterstützen. Die Voraussetzung: Die Anrufe können kategorisiert und nach Schema F bearbeitet werden. Freundliche Voicebots werden uns in Zukunft vor allem in den Bereichen Financial Services, Energieversorgung, Tourismus & Verkehr, Telekommunikation oder in der Entertainment-Branche am Telefon begrüßen. Sie führen aber auch im Anschluss an Telefongespräche mit Contact Center Mitarbeiter:innen Kundenbefragungen durch und sind in zahlreichen weiteren Szenarios einsetzbar.

Möchten Sie wissen, wie ein Voicebot Sie in Ihrer Situation am besten unterstützt? Sympalog hilft Ihnen gerne – von der Beratung über die Entwicklung bis hin zur Umsetzung und Pflege.

Mehr über Voicebots und Chatbots erfahren Sie hier von dem Experten Attikus A. Schacht, Geschäftsführer der Unternehmensberatung Schacht-Consulting, die sich auf Lösungen im Kundenservice und Vertrieb spezialisiert hat.

TL;DR – Die Zusammenfassung

Voicebots sind sprachbasierte, KI-gestützte Assistenten, die Anfragen telefonisch beantworten und Kundeninteraktionen effizienter gestalten. Anders als klassische IVR-Systeme, die auf Schlüsselwörter reagieren, können Voicebots natürliche Sprache verstehen und komplexere Anfragen verarbeiten. Durch die Integration von Technologien wie NLP und NLU wird die Bedeutung von Aussagen analysiert, sodass Voicebots präzise Antworten geben. Voicebots ergänzen Chatbots und sind besonders vorteilhaft in Branchen mit wiederkehrenden Anfragen, da sie Kosten senken und Servicekapazitäten erhöhen.