Glossar

Glossar zum Thema Sprachdialogsysteme:
Fachbegriffe verständlich erklärt

Die komplexe Entwicklung von Sprachdialogsystemen fordert fächerübergreifendes Expertenwissen. Dadurch lassen sich Fachbegriffe leider nicht vermeiden. Gerne können Sie sich in unserem Glossar zum Thema Sprachdialogsysteme informieren. Ein allgemeines Glossar der TeleTalk, das viele Fachbegriffe aus dem CallCenter-Bereich erklärt, finden Sie hier.

A-Law-Format

Bezeichnet die Kompression und Expansion unter Benutzung eines A-Law Algorithmus (auch “Alaw”), um ein Sprachsignal optimal zu digitalisieren und zu komprimieren. A-Law Sounddateien werden in europäischen Kommunikationsanlagen benutzt, während das µ-Law (“Mu-Law”) in Nordamerika und Japan verwendet wird.

ACD= Automatic Call Distribution

Die ACD-Anlage teilt die Anrufer einem freien Call-Center-Mitarbeiter zu. Die Zuweisung erfolgt dabei meist über das “longest-idle”-Prinzip, d.h. der Agent erhält den nächsten Anruf, der über den längsten Zeitraum keinen Anrufer bedient hat.

API= Application Programming Interface (dt. Schnittstelle zur Anwendungsprogrammierung)

Bezeichnet die Schnittstelle, die ein Betriebssystem oder auch ein anderes Softwaresystem anderen Programmen zur Verfügung stellt.

ASR= Automatic Speech Recognition

siehe „Spracherkennung“

Barge-In (engl. to barge in = hereinplatzen, sich einmischen)

Der Benutzer kann die Sprachausgabe des Sprachdialogsystems jederzeit unterbrechen.

Call-Flow

Bezeichnet den beim Entwurf eines IVR-Systems festgelegten Ablauf aller möglichen Dialoge zwischen Benutzer und System. Bei einfachen IVR-Systemen wird der Call-Flow in der Entwurfsphase explizit vorgegeben (als eine Art Flussdiagramm). Bei Sprachdialogsystemen, die die gemischte Initiative (mixed-initiative) unterstützen, wird der Dialogablauf in der Regel auf einer höheren Ebene festgelegt, z.B. durch Beschreibung der für die Anwendung relevanten Slots (siehe mixed-initiative Dialog).

Chatbot (“Chat” = Gespräch; “bot” als Abkürzung für Robot)

Generell werden Chatbots als Computerprogramme definiert, die schriftliche Konversationen mit Menschen über das Internet simulieren – mit Hilfe von künstlicher Intelligenz können Nutzeranfragen so automatisiert bearbeitet werden (siehe auch VoiceBot).

CRM (Customer Relationship Management)

Bezeichnet die Strategien, Technologien und Prozesse, die Unternehmen nutzen, um Kundenbeziehungen zu verwalten und zu optimieren. Ein CRM-System hilft dabei, Kundendaten zentral zu erfassen, Interaktionen zu analysieren und personalisierte Kommunikation sowie Vertriebs- und Serviceprozesse effizient zu steuern.

Dialog-Design

Bezeichnet die Gestaltung des Dialogs mit einem Sprachdialogsystem. Das “Dialog-Design” soll dem Anrufer die Bedienung eines Sprachdialogsystems einfach, schnell und intuitiv ermöglichen.

Dialoggedächtnis

Ein Sprachdialogsystem sollte Verbindungen zu bereits Gesagtem verstehen können. Beispiel: System: “Der Film ‘Fantastic Four’ läuft heute Abend nicht im Cinecitta.” Anrufer: “Läuft der denn dann vielleicht in Erlangen?” Das System muss verstehen können, dass sich “der” auf den Film “Fantastic Four” bezieht, der in Erlangen am selben Tag um dieselbe Uhrzeit laufen soll.

Dialogmanager

Modul eines Sprachdialogsystems, das aufgrund der aktuellen und vorangegangenen Benutzeräußerungen sowie dem Zustand des Back-End-Systems eine Entscheidung trifft, welche Systemäußerung als nächstes folgt. Ein Dialogmanager ist in der Regel die Voraussetzung für echte mixed-initiative Dialoge, da hier die explizite Beschreibung aller möglichen Dialogabläufe aus Aufwandsgründen ausscheidet. In einfachen IVR-Systemen wird häufig auf den Einsatz eines Dialogmanagers verzichtet, statt dessen wird der “Call-Flow” als eine Art Menü-Baum explizit vorgegeben.

DTMF= Dual Tone Multifrequency (Dialing)

Weitere synonyme Bezeichnungen sind “Touchtone”, “Tastenton-Navigation” oder “Tonwahlverfahren”. Das System wird anstatt natürlicher Spracheingabe durch Drücken der Tasten bedient (“Möchten Sie einen Mitarbeiter aus der Buchhaltung sprechen, dann drücken Sie bitte die Zwei”).

Grammatik

Im Hinblick auf die Sprachtechnologie werden damit die Regeln bezeichnet, die festlegen, welche Spracheingaben vom Spracherkenner verarbeitet werden können.

Head-Set

Head-Sets kommen häufig in Kombination mit Sprachsteuerungen oder Diktiersystemen zum Einsatz, da sie eine gute Qualität der Audio-Aufnahme und somit auch der Spracherkennungsleistung gewährleisten. Neben kabelgebundenen Lösungen gibt es schnurlose Head-Sets, z.B. auf Basis des DECT- und des Bluetooth-Standards. Siehe auch “Mikrofon-Array”.

IoT (Internet of Things)

Bezeichnet die Vernetzung physischer Geräte und Sensoren mit dem Internet, sodass sie Daten erfassen, austauschen und automatisch Aktionen auslösen können.

ISDN= Integrated Services Digital Network

Bezeichnet ein digitales Netz, mit dem die Übertragung von Sprache und Daten gleichermaßen möglich ist. ISDN bietet viele Dienste an, die das Telefonieren komfortabel und leistungsfähig machen.

IVR= Interactive Voice Response

Mit “IVR” oder “IVR-System” bezeichnet man generell automatische Systeme, mit denen ein menschlicher Benutzer über Telefon interagieren kann, unabhängig davon, ob dies über DTMF-Eingaben oder über sprachliche Äußerungen erfolgt. Häufig wird der Begriff “IVR” dabei eher für einfache Systeme verwendet, die lediglich eine sehr begrenzte Menge von Äußerungen, z.B. “ja” oder “nein”, bestimmte Zahlen oder Kommandos wie “weiter” verarbeiten können. Systeme, die natürlichsprachliche Äußerungen verarbeiten können, werden dagegen meist als Sprachdialogsysteme bezeichnet.

Large Language Model (LLM)

Ein Large Language Model, kurz LLM, ist ein fortschrittliches sprachbasiertes Modell, das darauf trainiert ist, menschliche Sprache zu verstehen und zu generieren. Es verwendet computergestützte linguistische Methoden, um aus umfangreichen Textdatenbanken statistische Beziehungen zwischen Wörtern und Sätzen zu lernen, was durch intensive Trainingsprozesse ermöglicht wird.

Load Balancing dt. Lastverteilung

Beschreibt allgemein die Verteilung umfangreicher Berechnungen oder großer Mengen von Anfragen auf mehrere parallel arbeitende Systeme. Bei rechenintensiven Aufgaben wie der automatischen Spracherkennung für viele parallel geführte Telefongespräche dient Load Balancing der optimalen Ausnutzung der vorhandenen Rechenkapazität.

Mikrofon-Array (auch Array-Mikrofon)

Ein “Mikrofon-Array” ist eine Anordnung von zwei oder mehr Mikrofonen, mit deren Hilfe Hintergrundlärm und Echo-Effekte bis zu einem gewissen Grad auch dann kompensiert werden können, wenn sich der Mund des Sprechers nicht in unmittelbarer Nähe des Mikrofons befindet. Mikrofon-Arrays werden heute beispielsweise für Sprachsteuerungen im Auto eingesetzt. Siehe auch “Head-Set”.

Mixed-initiative Dialog

Der Dialog mit dem System wird frei gestaltet. Der Benutzer kann auf natürliche Weise mit dem System sprechen, ohne dass er vom System in eine starre Struktur von Fragen oder Navigationskommandos (“weiter”, “zurück”, “Hauptmenü”) gedrängt wird. Der Benutzer kann das System dabei in der Regel unterbrechen und gegebenenfalls die “Initiative” in der Gesprächsführung übernehmen. Wesentliche Merkmale eines mixed-initiative Dialogs sind die Möglichkeit der Überbeantwortung (“Wo wollen Sie abfahren?” – “Von Hamburg, so gegen 16 Uhr!”), der intuitiven, natürlichsprachlichen Korrektur (“Sie wollen also nach Hamburg?” – “Nein, nach Bamberg”), die Verarbeitung von Out-of-Focus-Antworten und die Möglichkeit der Verwendung von impliziten Bestätigungsfragen (“Sie wollen also nach Bamberg. An welchem Tag?”).

MRCP= Media Resource Control Protocol

“MRCP” ist ein Kommunikationsprotokoll, das in dezentralen System-Architekturen Ressourcen wie z.B. Sprachsynthese oder Spracherkennung kontrolliert.

Mu-Law-Format (µ-Law Format)

siehe A-Law-Format.

Multimedial

Die Informationsausgabe kann über verschiedene Medien – z.B. grafisch, akustisch oder kombiniert – erfolgen.

Multimodal

Die Eingabe von Informationen ist auf verschiedene Arten möglich, z.B. per Mausklick oder per Sprache.

NLP = Natural Language Processing

NLP (Natural Language Processing) umfasst Technologien und Methoden, die es Computern ermöglichen, menschliche Sprache zu verstehen, zu interpretieren und zu generieren. Mehr dazu gibt es hier.

NLU= Natural Language Understanding

Das System kann eine Information, die in einem ganzen Satz vermittelt wird, verarbeiten, und auch mehrere Wörter oder Informationen in einem Satz verstehen. Der Begriff wird in der Regel für alle Fähigkeiten eines IVR-Systems verwendet, die über die Erkennung eines einzelnen Wortes (oder Schlüsselwortes) hinausgehen, so etwa auch die Erkennung einer Uhrzeitangabe. NLU-Fähigkeiten sind eine Voraussetzung für mixed-initiative Systeme, aber keineswegs alle IVR-Systeme mit NLU-Fähigkeiten sind auch mit mixed-initiative Fähigkeiten ausgestattet. Mehr dazu gibt es hier.

Out-of-Focus-Antworten

Ein natürlicher Dialog zeichnet sich dadurch aus, dass Fragen häufig nicht direkt oder gar nicht beantwortet werden. Ein Sprachdialogsystem muss zum Beispiel bei der Frage “Wann wollen Sie abfahren?” auf die Antwort des Anrufers “Ich wollte eigentlich ein Ticket stornieren!” reagieren können.

Out-of-Vocabulary

Durch eine “Out-of-Vocabulary”-Funktion sind Sprachdialogsysteme in der Lage, auch solche Anfragen sinnvoll zu beantworten, die Wörter enthalten, die das System nicht kennt. Ohne Out-of-Vocabulary-Funktion ordnen Sprachdialogsysteme unbekannte Wörter Begriffen zu, die im Systemvokabular enthalten sind. Die Out-of-Vocabulary-Funktion beseitigt damit eine der häufigsten Ursachen für Missverständnisse zwischen Anrufer und System.

Persona

Bezeichnet allgemein eine künstliche Figur. Die “Persona” bei Sprachdialogsystemen beruht auf der Erkenntnis, dass Menschen auch einem virtuellen Gegenüber bestimmte Eigenschaften zuordnen. Der persönliche Eindruck des Systems kann z.B. durch die Stimme, den Tonfall oder die Artikulation an eine bestimmte Zielgruppe angepasst werden.

Prompt= Eingabeaufforderung

“Prompt” ist ein allgemeiner Begriff aus dem IT-Bereich und wird für eine Markierung auf der Kommandozeile verwendet, die auf die Stelle zeigt, an der Kommandozeilenbefehle eingegeben werden können. In der Sprachtechnologie wird damit die Eingabeaufforderung der Sprachanwendung bezeichnet oder auch generell jede Äußerung des Sprachdialogsystems.

Prosodie

In der Sprachwissenschaft werden damit alle Eigenschaften eines Sprechaktes bezeichnet, die über das wörtlich Gesagte hinausgehen, wie z.B. Akzent, Intonation, Quantität, Sprechrhythmus und Sprechtempo.

SALT= Speech Application Language Tags

Der Standard “SALT” umfasst eine Reihe von Erweiterungen zu den Sprachen HTML, cHTML, XHTML und WML, mit denen Webseiten um multimediale und multimodale Funktionen ergänzt werden.

Self-Service-Portal

Ein Self-Service-Portal ist ein Online-Portal, über das Kunden oder Mitarbeiter eigenständig Informationen abrufen, Anfragen stellen oder Probleme lösen können, ohne direkten Kontakt zum Support.

Slot

Bezeichnet die Einzelinformationen, die in einer bestimmten Applikation aus den Sätzen des Benutzers extrahiert werden können, z.B. Abfahrtszeit oder Zielort. Diese Slots stellen somit für den Dialogmanager eine wesentliche Information über den aktuellen Inhalt des Gesprächs dar.

Speech Analytics

Sprache wird analysiert, um Informationen über den Gesprächsinhalt oder den Sprecher zu erhalten, z.B. zur Erfassung des emotionalen Zustandes, des Alters, Geschlechts oder des Dialekts des Sprechers oder zur Gesprächsthemen-, Schlüsselwort-, Sprecher- oder Landessprachenerkennung.

Speech-To-Text

Ein Sprachsignal wird in geschriebenen Text umgewandelt (transkribiert).

Sprachassistent

Ein Sprachassistent ist eine Softwareanwendung, die durch die Verwendung von Spracherkennung, Sprachsynthese und Natural Language Processing eine breite Palette von Aufgaben ausführen und auf komplexe Anfragen reagieren kann, oft integriert in Smartphones und Smart-Home-Geräte.

Sprachbot (= Voicebot)

Ein Sprachbot ist eine Art von Softwareagent, der speziell darauf ausgelegt ist, mit Nutzern über gesprochene Sprache zu kommunizieren. Er wird typischerweise in Kundenservice-Umgebungen eingesetzt, um standardisierte Antworten auf häufige Anfragen zu geben oder einfache Aufgaben durch sprachgesteuerte Befehle auszuführen.

Sprachcomputer

IVR-Systeme oder Sprachportale werden umgangssprachlich häufig als “Sprachcomputer” bezeichnet.

Sprachdialogsystem

Sprachdialogsysteme sind automatische Systeme, mit denen ein Benutzer mittels natürlicher Sprache kommunizieren kann. Anders als der Begriff “IVR” wird der Begriff “Sprachdialogsystem” eher für Systeme mit “NLU”-Fähigkeiten verwendet. Siehe auch “IVR”, “Sprachportal” und “Voice Portal”.

Spracherkennung

Unter dem Begriff “Spracherkennung” (auch “Automatische Spracherkennung”) versteht man die Umwandlung gesprochener Sprache in Zeichen- bzw. Wortfolgen. Der Begriff “ASR” (Automatic Speech Recognition) wird auch synonym zu dem Begriff “Spracherkennung” verwendet.

Sprachportal

Der Begriff “Sprachportal” oder “Voice Portal” ist gleichbedeutend mit “IVR” oder “Sprachdialogsystem”. Anrufer können teil- oder vollautomatisierte Dialoge führen.

Sprachsignalanalyse

siehe Speech Analytics

Sprachsteuerung

Unter einer “Sprachsteuerung” versteht man die Bedienung von Geräten mit Hilfe automatischer Spracherkennung.

Sprachsynthese

Bezeichnet die Erzeugung gesprochener Sprache durch einen Computer. Der Begriff “Text-to-Speech” wird synonym verwendet.

Sprachverarbeitung

Darunter versteht man das maschinelle Aufnehmen, Erkennen und Interpretieren von Sprachlauten bzw. sprachlichen Signalen.

Sprecherunabhängig

Sprachportale sind “sprecherunabhängig”, das heißt sie verstehen beliebige Sprecher, im Gegensatz z.B. zu sprecherabhängigen Diktiersystemen, die der Stimme des Nutzers angepasst sind.

Sprecherunabhängig

maschinelles Aufnehmen, Erkennen, Interpretieren und Erzeugen von Sprachlauten, sprachlichen Signalen

Sprecherverifikation

Entsprechende Synonyme sind “Voice Verification” und “Sprecherverifikation”. Diese Begriffe bezeichnen die eindeutige Identifizierung (Wiedererkennung) einer Person durch ihre Stimme. Sprecherverifikation kann z.B. im Rahmen einer automatisch durchgeführten “Benutzer-Authentifizierung” zum Einsatz kommen (in Kombination mit oder alternativ zu anderen Verfahren wie PIN-Eingabe oder Passwortabfrage).

SSML= Speech Synthesis Markup Language

“SSML” ist eine XML-basierte Sprache für die Sprachsynthese, die z.B. die Prosodie eines zu synthetisierenden Textes bestimmt.

TTS= Text-to-Speech

“Text-to-Speech” wird synonym zum Begriff “Sprachsynthese” verwendet: Ein geschriebener Text wird in ein Sprachsignal umgewandelt.

UMS= Unified Messaging

Bezeichnet die Vereinheitlichung von Nachrichten, die in beliebiger Form (z.B. über Voice-Mail, E-Mail, Fax, SMS oder MMS usw.) vorliegen, und die Bereitstellung dieser vereinheitlichten Nachrichten für den Nutzer (über Festnetz- oder Mobiltelefon, E-Mail-Client).

Verifizierung

Voice Analytics

siehe Speech Analytics

VoiceBot

“VoiceBot” ist eine neue Wortschöpfung, die in Anlehnung an “Chatbot” entstanden ist: Anders als beim “Chatbot” wird die Ein- und Ausgabe über die gesprochene Sprache realisiert .Ein Voicebot ist eine Art von Softwareagent, der speziell darauf ausgelegt ist, mit Nutzern über gesprochene Sprache zu kommunizieren. Er wird typischerweise in Kundenservice-Umgebungen eingesetzt, um standardisierte Antworten auf häufige Anfragen zu geben oder einfache Aufgaben auszuführen.

Voice Portal

siehe Sprachportal

Voice Self-Service

Der Begriff “Voice Self-Service” ist gleichbedeutend mit “IVR” oder “Sprachdialogsystem”. Anrufer können teil- oder vollautomatisierte Dialoge führen.

VoiceXML= Voice Extensible Markup Language

“VoiceXML” (auch “VXML”) ist eine speziell für Sprachanwendungen entwickelte Variante der Datenbeschreibungssprache XML. VoiceXML ist grob vergleichbar mit HTML als Web-Standard. Anwendungen, die in VoiceXML entwickelt wurden oder VoiceXML als Ausgabeformat unterstützen, können (im Prinzip) mit jeder VoiceXML-kompatiblen Sprachplattform an das Telefonnetz angeschlossen werden.

VoIP

Synonym werden auch die Begriffe “IP-Telefonie”, “Internet-Telefonie” bzw. “Voice over IP” verwendet. Diese Begriffe bezeichnen das Telefonieren über ein Computernetzwerk auf der Grundlage des Internetprotokolls. Sprachinformationen werden also nicht wie auf herkömmliche Weise über das Telefonnetz übertragen, sondern durch das Internet. Vermittlungsrechner, sogenannte Gateways, stellen die Verbindung zum herkömmlichen Telefonnetz sicher.

Vorqualifizierung

Die Vorqualifizierung dient dem Zweck, den Anrufer mit dem richtigen Ansprechpartner zu verbinden. Dazu ermittelt bzw. erfragt ein automatisches System Informationen zu dem Anrufer und seinem Anliegen.

VUI= Voice User Interface

Die Wortneubildung “VUI” ist analog zu GUI (Graphical User Interface) für die Benutzer-Schnittstelle von Sprachportalen entstanden.