見出し語と Unicode 正規化

リリースバージョン: Australia

更新日 2026年03月12日

所要時間：3分

AI 検索はインデックス作成中および検索クエリ時に、語形変化した単語と Unicode グリフを正規化します。正規化により検索の再呼び出しが改善され、ユーザーは検索クエリ用語の活用形式でコンテンツを検索できるようになります。

正規化機能は自動的に有効になり、構成することはできません。

見出し語正規化

多くの言語には、複数形の用語や動詞のテンスなど、活用形の用語が含まれています。AI 検索は、インデックス付きコンテンツおよび検索クエリで見つかった活用された用語を正規化します。正規化では、名詞複数形の単数形や活用動詞の基本形など、語根形式に基づいて照合を行うことができます。この語根形式は見出し語と呼ばれ、このプロセスは見出し語正規化と呼ばれます。

たとえば、ソースレコードに結合された動詞の selling が含まれている場合、AI 検索はインデックス作成された用語を展開して、selling に加えて見出し語形式の sellを含めます。ユーザーが過去形活用形式 sold を検索するときは、AI 検索は検索クエリ用語を展開して、sold に加えて見出し語形式 sell を含めます。インデックス作成された用語と検索クエリ用語に一致する形式が含まれているため、ユーザーの検索では結果として selling のレコードが返されます。

AI 検索は、 (ブラジル)、オランダ語、英語、フィンランド語、フランス語、カナダフランス語、ドイツ語、イタリア語、日本語、韓国語、ノルウェー語 (ブークモール)、ポーランド語、ポルトガル語、簡体字中国語、スペイン語、繁体字中国語の言語固有の見出し語正規化をサポートしています。

注:

ソースレコードフィンランド語テキストと検索用語を解析するとき、 AI 検索はアルゴリズム語幹解釈を使用して見出し語を識別します。

単語分解

ドイツ語、韓国語、ノルウェー語 (ブークモール)、スウェーデン語の見出し語を正規化することに加えて、AI 検索は複合単語とその個々の構成単語にインデックスを付けます。たとえば、複合単語 Humanressourcen を含むドイツ語レコードにインデックスを付ける場合、AI 検索はこの複合単語に加えて構成単語である Human および ressourcen にインデックスを付けます。

Unicode 正規化

AI 検索は Unicode 正規化をインデックス付き用語と検索クエリ用語で実行します。この正規化により、アルファベットの Unicode グリフは、最も近い同等の文字を使用して検索できます。

たとえば、resumé という用語を含むレコードのインデックスを作成する場合、AI 検索はこの用語を展開して、アクセント記号のない形式 resume も含めます。このレコードは、ユーザーが resume または resumé のいずれかを検索すると、検索結果として表示されます。

Unicode 正規化には、NFKD (互換性分解) ステージと NFKC (互換性構成) ステージがあります。これらの正規化形式の詳細については、『Unicode 標準付属書 #15』(https://www.unicode.org/reports/tr15/) を参照してください。

他の検索機能とのインタラクション

次の表は、正規化と他の検索機能の間のインタラクションを示しています。


機能	見出し語と Unicode 正規化のインタラクション
Genius 結果	補題または Unicode 正規化によって追加された検索クエリ用語は、用語トリガー条件を使用して Genius 結果構成をトリガーすることはできません。
結果改善ルール	補題または Unicode 正規化によって追加された検索クエリ用語は、ルールのクエリトリガーと一致する場合に、結果改善ルールをトリガーできます。
ストップワード	検索クエリ用語がストップワードとして定義されている場合、AI 検索は用語を正規化せずに削除します。
同義語	検索クエリ用語が同義語として定義されている場合、AI 検索はその用語を正規化しません。
タイポ処理	AI 検索は、自動修正済み検索クエリ用語で補題と Unicode 正規化を実行します。