Lemma- und Unicode-Normalisierung

  • Freigeben Version: Washingtondc
  • Aktualisiert 1. Februar 2024
  • 2 Minuten Lesedauer
  • KI-Suche normalisiert flektierte Wörter und Unicode-Glyphen während der Indizierung und zum Zeitpunkt der Suchabfrage. Die Normalisierung verbessert den Suchrückruf und ermöglicht es Benutzern, Inhalte mit Varianten ihrer Suchbegriffe zu finden.

    Normalisierungsfunktionen werden automatisch aktiviert und können nicht konfiguriert werden.

    Lemma-Normalisierung

    Viele Sprachen enthalten flektierte Formen von Begriffen, z. B. Nomen im Plural oder Zeitformen von Verben. KI-Suche normalisiert flektierte Begriffe, die in indizierten Inhalten und Suchabfragen gefunden wurden. Die Normalisierung ermöglicht den Abgleich basierend auf einem Stammformular, z. B. dem Singular für ein Nomen im Plural oder dem Basisformular für ein konjugiertes Verb. Dieses Stammformular wird als Lemma bezeichnet, und dieser Prozess wird als Lemma-Normalisierung bezeichnet.

    Beispiel: Wenn ein Quelldatensatz das konjugierte Verb „ sale“ enthält, erweitert KI-Suche den indizierten Begriff um die Lemma-Form „ sell “ zusätzlich zu „ sale“. Wenn ein Benutzer nach der konjugierten Vergangenheitsform „ sold“ sucht, erweitert KI-Suche den Suchbegriff um die Lemma-Form „ sell “ und „ sold“. Da der indizierte Begriff und der Suchabfragebegriff übereinstimmende Formulare enthalten, gibt die Suche des Benutzers den Verkaufsdatensatz als Ergebnis zurück.

    KI-Suche unterstützt die sprachspezifische Lemma-Normalisierung für Englisch, Französisch (Kanada), Französisch, Deutsch, Japanisch, vereinfachtes Chinesisch, Spanisch und traditionelles Chinesisch.

    Dekomposition von Deutsch

    Zusätzlich zur Normalisierung von Lemmata für DeutschKI-Suche indiziert [] zusammengesetzte Wörter und ihre einzelnen Komponentenwörter. Wenn Sie beispielsweise einen Datensatz indizieren, der das zusammengesetzte Wort Humanressourcenenthält, indiziert KI-Suche zusätzlich zum zusammengesetzten Begriff die Komponentenbegriffe Human und Ressourcen.

    Unicode-Normalisierung

    KI-Suche führt eine Unicode-Normalisierung für indizierte Begriffe und Suchabfragebegriffe durch. Durch diese Normalisierung können alphabetische Unicode-Glyphen mit den nächsten entsprechenden Zeichen durchsucht werden.

    Wenn Sie beispielsweise einen Datensatz indizieren, der den Begriff Lebenslauf enthält, erweitert KI-Suche den Begriff so, dass er auch das nicht hervorgehobene Formular Lebenslaufenthält. Dieser Datensatz wird als Suchergebnis angezeigt, wenn Benutzer nach „ resume “ oder „resumé“ suchen.

    Die Unicode-Normalisierung umfasst die Phasen NFKD (Kompatibilitätszerlegung) und NFKC (Kompatibilitätszusammensetzung). Weitere Informationen zu diesen Normalisierungsformularen finden Sie im Unicode Standard Anhang Nr. 15, https://www.unicode.org/reports/tr15/.

    Interaktion mit anderen Suchfunktionen

    In der folgenden Tabelle werden die Interaktionen zwischen der Normalisierung und anderen Suchfunktionen beschrieben.

    Funktion Interaktion mit Lemma- und Unicode-Normalisierung
    Genius-Ergebnisse

    Durch Lemma oder Unicode-Normalisierung hinzugefügte Suchabfragebegriffe können Genius-Ergebniskonfigurationen mit Begriff-Auslöserbedingungen nicht auslösen.

    Ergebnisverbesserungsregeln

    Ein durch Lemma oder Unicode-Normalisierung hinzugefügter Suchabfragebegriff kann eine Ergebnisverbesserungsregel auslösen, wenn er mit dem Abfrageauslöser der Regel übereinstimmt.

    Stoppwörter

    Wenn ein Suchabfragebegriff als Stoppwort definiert ist, entfernt KI-Suche diesen Begriff, ohne ihn zu normalisieren.

    Synonyme

    Wenn ein Suchabfragebegriff als Synonym definiert ist, normalisiert KI-Suche ihn nicht.

    Tippfehlerbehandlung

    KI-Suche führt die Lemma- und Unicode-Normalisierung für automatisch korrigierte Suchabfragebegriffe durch.