Skip to content

Text-Bereinigung

[! [Versions-Abzeichen] (https://img.shields.io/badge/Updated in-v4.58-blue.svg)] (.. /.. /release-notes/4.58.md)

Cognigy.AI bietet verschiedene Funktionen zur Unterstützung bei der Vorverarbeitung von Benutzereingaben, wie z. B. Textnachrichten oder transkribierte Sprachnachrichten. Diese Funktionen erleichtern die Verarbeitung von Daten in Cognigy.AI.

Ein Beispiel wäre, wenn ein Benutzer eine Teilenummer als "alpha tango hotel double seven three nine minus L für London und C für Kanada" buchstabiert, was zu "ath 7739 - lc" führt.

Diese Funktionen unterstützen die englischen ('en') und deutschen ('de') Gebietsschemas.

Die Funktionen sind in den folgenden Entitäten verfügbar:

Funktionen

Name der Funktion Beschreibung
cleanDisallowedSymbols Entfernt alle Symbole, die nicht explizit zulässig sind. Alle Buchstaben und Zahlen sind standardmäßig erlaubt, und es können zusätzliche zulässige Symbole festgelegt werden.
resolveSpelledOutNumbers Ersetzt alle Zahlenwörter durch ihre numerische Darstellung. Beispiel: "fünfunddreihundertneunzehn" > "5 319".
resolvePhoneticAlphabet Erkennt und ersetzt alle Wörter, die Teil des phonetischen Alphabets sind. Zum Beispiel "alpha tango lima" > "a t l".
replaceSpecialWords (Veraltet) Ersetzt spezifisch festgelegte Wörter durch ihre Ersetzungen. Beispiel: "lufthansa" > "lh".

Diese Funktion ist seit v4.58 veraltet. Verwenden Sie stattdessen die Funktion replaceSpecialPhrases.
replaceSpecialPhrases Ersetzt bestimmte Wörter oder Ausdrücke durch Ersetzungen. Zum Beispiel wird "Conversational AI" in "CAI", "New York" in "NY" und "lufthansa" in "lh" geändert.
resolveSpelledOutAlphabet Löst Ausdrücke wie "a für anton b wie in Bertram" in "a b" auf.
resolvePhoneticCounters Löst Zeichenfolgen wie "3 mal 2" in "222" oder "double 4" in "44" auf. Weitere Informationen zu speziellen Regeln finden Sie im Abschnitt Regeln für resolvePhoneticCounters.
contractSingleCharacters Verbindet alle einzelnen Zeichen, die für sich allein stehen, zu einer vollständigen Zeichenfolge. Zum Beispiel "Mein Name ist c o g n i g y" > "Mein Name ist kognig".
contractNumberGroups Verbindet alle Zahlen, die nebeneinander stehen. Zum Beispiel: "Seine Nummer ist 333 43 22 44" > "Seine Nummer ist 333432244".
trimResult Kürzt den Anfang und das Ende der Zeichenfolge und ersetzt alle doppelten (oder mehr) Leerzeichen durch einfache Leerzeichen.

Regeln für resolvePhoneticCounters

Diese Funktion dient dazu, Ausdrücke wie "3 mal 2" in ihre numerische Darstellung umzuwandeln, z. B. "3 mal 2" in "222" oder "double 4" in "44". Die Funktion verarbeitet Sätze, die sowohl einen Multiplikator (z. B. "3 mal" oder "doppelt") als auch einen Multiplikator (z. B. "2" oder "4") enthalten. Der Multiplikand kann entweder eine Zahl oder ein Zeichen sein.

Einige Beispiele können mehrdeutig sein. Betrachten Sie zum Beispiel die Phrase "double ap 3 4", die entweder als "aap34" oder "apap34" interpretiert werden könnte.

Um diese Mehrdeutigkeit zu vermeiden, hat Cognigy die folgenden Regeln für Multiplikantentypen definiert:

Multiplikant-Typ Regel Beispiel
Anzahl 2 mal 3, 2 mal 16
Multiplicand ist eine Zahl kleiner als 13 Der Multiplikator wiederholt sich selbst. "2 mal 3" gibt "33" zurück
"2 mal 11" gibt "1111" zurück
Multiplikanz ist eine Zahl größer oder gleich 13 Es wird nur die erste Ziffer wiederholt.

Die erste Ziffer hat aufgrund der häufigeren Verwendung von Ausdrücken wie "3 mal 4" oder "3 mal 12" im Vergleich zu "3 mal 25" Vorrang.
"2 mal 16" gibt "116" zurück
Charakter 2 mal Alpha, 2 mal OX
Multiplicand ist ein phonetisches Zeichen Es wird aufgelöst und das Zeichen wird wiederholt. "2 mal Alpha" gibt "aa" zurück
Multiplicand hat mehr als ein Zeichen und ist kein phonetisches Zeichen Es wird nur das erste Zeichen wiederholt.

Cognigy geht davon aus, dass das Speech-to-Text-System (STT) die Benutzereingabe falsch transkribiert hat und dass der Benutzer beabsichtigte, eine andere zu sagen.
"2 mal ox" gibt "oox" zurück
(Wir gehen davon aus, dass der Benutzer beabsichtigt hat, "2 mal o, x" zu sagen)