Lemma- und Unicode-Normalisierung

Washington DC Now Platform-Administration

Release

washingtondc

ft:locale

de-DE

ft:publication_title

Washington DC Now Platform-Administration

ft:clusterId

platadm

bundleId

platadm

workflow

Platform

Lemma- und Unicode-Normalisierung

Freigeben Version: Washingtondc

Aktualisiert 1. Februar 2024

2 Minuten Lesedauer

KI-Suche normalisiert flektierte Wörter und Unicode-Glyphen während der Indizierung und zum Zeitpunkt der Suchabfrage. Die Normalisierung verbessert den Suchrückruf und ermöglicht es Benutzern, Inhalte mit Varianten ihrer Suchbegriffe zu finden.

Normalisierungsfunktionen werden automatisch aktiviert und können nicht konfiguriert werden.

Lemma-Normalisierung

Viele Sprachen enthalten flektierte Formen von Begriffen, z. B. Nomen im Plural oder Zeitformen von Verben. KI-Suche normalisiert flektierte Begriffe, die in indizierten Inhalten und Suchabfragen gefunden wurden. Die Normalisierung ermöglicht den Abgleich basierend auf einem Stammformular, z. B. dem Singular für ein Nomen im Plural oder dem Basisformular für ein konjugiertes Verb. Dieses Stammformular wird als Lemma bezeichnet, und dieser Prozess wird als Lemma-Normalisierung bezeichnet.

Beispiel: Wenn ein Quelldatensatz das konjugierte Verb „ sale“ enthält, erweitert KI-Suche den indizierten Begriff um die Lemma-Form „ sell “ zusätzlich zu „ sale“. Wenn ein Benutzer nach der konjugierten Vergangenheitsform „ sold“ sucht, erweitert KI-Suche den Suchbegriff um die Lemma-Form „ sell “ und „ sold“. Da der indizierte Begriff und der Suchabfragebegriff übereinstimmende Formulare enthalten, gibt die Suche des Benutzers den Verkaufsdatensatz als Ergebnis zurück.

KI-Suche unterstützt die sprachspezifische Lemma-Normalisierung für Englisch, Französisch (Kanada), Französisch, Deutsch, Japanisch, vereinfachtes Chinesisch, Spanisch und traditionelles Chinesisch.

Dekomposition von Deutsch

Zusätzlich zur Normalisierung von Lemmata für DeutschKI-Suche indiziert [] zusammengesetzte Wörter und ihre einzelnen Komponentenwörter. Wenn Sie beispielsweise einen Datensatz indizieren, der das zusammengesetzte Wort Humanressourcenenthält, indiziert KI-Suche zusätzlich zum zusammengesetzten Begriff die Komponentenbegriffe Human und Ressourcen.

Unicode-Normalisierung

KI-Suche führt eine Unicode-Normalisierung für indizierte Begriffe und Suchabfragebegriffe durch. Durch diese Normalisierung können alphabetische Unicode-Glyphen mit den nächsten entsprechenden Zeichen durchsucht werden.

Wenn Sie beispielsweise einen Datensatz indizieren, der den Begriff Lebenslauf enthält, erweitert KI-Suche den Begriff so, dass er auch das nicht hervorgehobene Formular Lebenslaufenthält. Dieser Datensatz wird als Suchergebnis angezeigt, wenn Benutzer nach „ resume “ oder „resumé“ suchen.

Die Unicode-Normalisierung umfasst die Phasen NFKD (Kompatibilitätszerlegung) und NFKC (Kompatibilitätszusammensetzung). Weitere Informationen zu diesen Normalisierungsformularen finden Sie im Unicode Standard Anhang Nr. 15, https://www.unicode.org/reports/tr15/.

Interaktion mit anderen Suchfunktionen

In der folgenden Tabelle werden die Interaktionen zwischen der Normalisierung und anderen Suchfunktionen beschrieben.


Funktion	Interaktion mit Lemma- und Unicode-Normalisierung
Genius-Ergebnisse	Durch Lemma oder Unicode-Normalisierung hinzugefügte Suchabfragebegriffe können Genius-Ergebniskonfigurationen mit Begriff-Auslöserbedingungen nicht auslösen.
Ergebnisverbesserungsregeln	Ein durch Lemma oder Unicode-Normalisierung hinzugefügter Suchabfragebegriff kann eine Ergebnisverbesserungsregel auslösen, wenn er mit dem Abfrageauslöser der Regel übereinstimmt.
Stoppwörter	Wenn ein Suchabfragebegriff als Stoppwort definiert ist, entfernt KI-Suche diesen Begriff, ohne ihn zu normalisieren.
Synonyme	Wenn ein Suchabfragebegriff als Synonym definiert ist, normalisiert KI-Suche ihn nicht.
Tippfehlerbehandlung	KI-Suche führt die Lemma- und Unicode-Normalisierung für automatisch korrigierte Suchabfragebegriffe durch.