クラスタリングソリューションを作成してトレーニングする

  • リリースバージョン: Australia
  • 更新日 2026年03月12日
  • 所要時間:8分
  • 類似したレコードをクラスターにグループ化して、まとめて対処したり、パターンを特定したりすることができます。

    始める前に

    必要なロール:ml_admin または admin
    重要:
    オーストラリア リリースでは、分類、クラスタリング、および類似性フレームワークのモデルはワークフローソリューションを使用します。これらは事前にトレーニングされているため、新しいソリューションにワードコーパスは必要ありません。ワードコーパスを含む既存のソリューションがアップグレード後に再トレーニングされると、それらはワークフローソリューションになり、[ワードコーパス] フィールドはフォームから削除されます。

    このタスクについて

    この手順例では、最近発生した類似のインシデントをグループ化して重大なインシデントを特定するソリューションを作成します。

    暗号化されたトレーニングデータの使用については、「 予測インテリジェンスにおけるデータの暗号化」を参照してください。

    手順

    1. ソリューション定義に必要なアプリケーションスコープ内にいることを確認してから、 すべて > 予測インテリジェンス > クラスタリング > ソリューション定義.
    2. [クラスタリング定義] リストで、[ 新規] を選択します。
    3. [クラスタリング定義] フォームで、次のガイダンスに従ってフィールドを設定します。
      フィールド
      ラベル クラスタリングソリューションの一意の名前を入力します。たとえば、このユースケースでは、重大なインシデントにグループインシデントを入力できます。
      名前 ソリューションのラベルを入力すると、このフィールドにはラベル値に基づいてシステムによって割り当てられた名前が自動的に入力されます。
      ワードコーパス

      従来のクラスタリングソリューションを使用している場合は、定義フォームの [ ワードコーパス ] フィールドから関連するワードコーパスを選択できます。

      注:
      オーストラリアリリースでは、代わりに事前トレーニング済みモデルが使用されるため、ワードコーパスは不要になりました。[ ワードコーパス ] フィールドは、事前トレーニング済みモデルの定義フォームには表示されません。

      詳細については、「ワードコーパスの作成」を参照してください。

      テーブル

      1 つ以上のクラスターにグループ化するレコードタイプを含むテーブルを選択します。たとえば、このユースケースでは、重大なインシデント分析のためにグループ化するインシデントレコードが含まれているイン シデント [incident] テーブルを選択します。

      テーブル値を割り当てると、現在の条件に一致するレコードの数を示すリンクがフォームに表示されます。

      Fields クラスターに含めるレコードをシステムが識別するのに役立つ 1 つ以上の入力フィールドタイプを選択します。このユースケースでは、[ 簡単な説明] を使用します。
      注:
      参照タイプフィールドを選択するときは、フィールドのプロパティ名にドット連結する必要があります。たとえば、 short_description の代わりに「 short_description.name」と入力します。
      グループ化を使用 クラスターを作成する前に入力レコードをフィールドでグループ化する場合にのみ、このチェックボックスをオンにします。
      注:
      このチェックボックスをオンにすると、[ グループ] リストが有効になります。チェックボックスをオンにしない場合、すべてのテーブルレコードがクラスターにグループ化されます。
      グループ

      このリストからの値の選択はオプションです。その場合、システムは選択に基づいてレコードを 1 つ以上のクラスターにグループ化します。

      純度フィールド クラスター内で最も頻繁に出現するクラスをシステムが識別するのに役立つフィールドをテーブルから選択します。このシナリオ例では、[ カテゴリ][アサイン先グループ] を選択します。名前
      フィルター クラスターに含める入力フィールドレコードに適用するフィルター条件を追加します。
      • クラスタリングするレコードの最大数は 300,000 に制限されています。
      • 最良の結果を得るには、最低でも 2000 レコードを目指します。
      注:
      スクリプトインクルードをフィルターから参照することはできません。代替手段としてデータベースビューを使用します。
      処理言語 ソリューション定義でトレーニングしているデータセットの主要言語を選択します。データセット言語がイタリア語の場合は、[ イタリア語] を選択します。また、デフォルトでは、すべてのデータセットに英語の処理が適用されます。たとえば、イタリア語を選択した場合、システムは英語とイタリア語の両方でデータを処理します。
      注:
      「処理」という用語は、ソリューションのトレーニングの一環として使用される言語固有の手順の一部を示します。たとえば、単語のトークン化、ストップワードの削除、語幹の解釈などがあります。
      ストップワード 処理言語を選択すると、その言語でストップワードリストが自動的に追加されます。たとえば、処理言語がイタリア語の場合、[デフォルトのイタリア語のストップワード (Default Italian Stopwords)] リストが表示されます。[デフォルトの英語のストップワード] リストも含まれています。カスタムストップワードリストを作成する場合は、[ストップワード] フィールドから選択してソリューションに追加できます。
      更新頻度
      新しいレコードと更新されたレコードでクラスターを更新する頻度を選択します。
      注:
      クラスタリングソリューションに設定した [グループ] フィルター条件 (存在する場合) に基づいてレコードがプルされます。

      たとえば、[ 15 分ごと] を選択すると、システムはその期間内に到着したレコードを識別します。既存のクラスターへの割り当てが試行されるか、可能であれば新しいクラスターが作成されます。

      この例では、20 件の新しいレコードが到着します。これらのレコードのうち 16 件が既存のクラスターに追加され、4 件が既存のクラスターに組み込まれない場合、システムは 4 件の未アサインレコードに対して新しいクラスターを形成します。

      クラスターをまったく更新しないように選択することもできます。

      トレーニング頻度 以前のクラスター結果をすべて破棄 、クラスターを最初から再作成する頻度を選択します。オプションの範囲は、日次、3 日ごと、7 日ごと、月次です。クラスターを 1 回トレーニングすることを選択することもできます。
      注:
      ML スケジューラーは、インスタンスがコミットできるトレーニングの数を、24 時間枠内のインスタンスあたり 50 件の新しい ML トレーニング要求に制限します。この制限には、スケジュールされた再トレーニング要求は含まれません。さらに、新しいトレーニング要求が 24 時間枠内で 50 件を超えた場合でも、クラスタリングと類似性の更新もこの制限から除外されます。
      クラスターあたりの最小レコード数 クラスターに含めるレコードの最小数を入力します。入力する値は 2 以上である必要があります。
    4. ソリューション定義に適切なコンテキストメニューオプションまたはボタンを選択します。
      オプション説明
      [保存] または [保存してトレーニング] ソリューション定義レコードを保存して、後でそれに戻ることができるようにするか、または保存して、それをトレーニング用に送信します。
      [送信] または [送信してトレーニング] ソリューション定義レコードを作成して、それを送信するか、または送信してトレーニングします。
    5. トレーニング用にソリューションを送信した場合は、[トレーニングのアクティブ化] ウィンドウで [OK ] を選択して確定します。

    タスクの結果

    ソリューションがトレーニングされ、トレーニングが完了するとリアルタイムで通知されます。

    ツリーマッププロットが [クラスターリングソリューション定義] フォームの [クラスターの表示方法] タブに表示されます。プロットには、システムがソリューションに対して形成したクラスターが左上隅から右下隅に降順で示されます。ツリーマップノードラベルはクラスターの概念であり、クラスターの上位の単語によって作成され、各クラスターで最も目立つコンテンツを確認するのに役立ちます。
    注:
    クラスターの概念には、処理された入力データの上位の単語がデータの言語で表示されます。言語によっては、クラスターの概念に語根形式で単語が表示され、切り捨てて表示される場合があります。
    各ノードは、そのノードのクラスター品質に応じて赤から緑の色になります。[グループの選択] フィルターは、クラスタリング定義フォームで [ グループを使用] フィールドと [ グループ] フィールドを選択した場合にのみ表示されます。クラスターをポイントすると、その Groupby 値、クラスター数、および Groupby 内のレコードが表示されます。
    図 : 1. クラスターの可視化の例
    クラスターリングソリューション定義フォームの [クラスターの表示方法] タブ。システムがソリューションに対して形成したクラスターが降順で表示されます。

    クラスターを開くには、クラスターをクリックするか、[すべてのグループを表示] フィルターから選択します。

    クラスターのグループ化内で、クラスターサイズとクラスター品質の 2 つのスライドバーを使用して、結果をさらにフィルタリングできます。[戻る] ボタンをクリックして戻ることもできます。このボタンは、クラスタリング階層が存在する場合にのみ表示されます。このレベルのクラスターをポイントすると、[純度] フィールドのパーセンタイル値が [クラスターの概念]、[品質]、および [サイズ] の値とともに表示されます。
    図 : 2. クラスターグループの例
    クラスターグループ。クラスターサイズとクラスター品質をフィルタリングできます。このレベルのクラスターをポイントすると、[純度] フィールドの値が表示されます。
    クラスターノードをクリックすると、その ML クラスターの詳細がリストビュー形式で表示されます。
    図 : 3. [クラスターの詳細] ページ
    ML クラスター詳細テーブルには、クラスタリングソリューションのレコード ID、Groupby ノード、ML ソリューション名、およびランキング率が含まれており、リストビュー形式で表示されます。

    次のタスク

    • ソリューションの [ソリューション統計情報] タブでソリューション出力を確認します。クラスタリングソリューションの結果に満足できない場合は、ソリューションに設定した値を再構成し、満足のいく結果が得られるまで再トレーニングします。

    • クラスター ID、品質サイズ、および Groupby 値のリストビューについては、[クラスターサマリー] タブを確認してください。
      図 : 4. クラスターサマリーの例
      クラスター サマリー テーブルには、すべてのクラスターがクラスター ID、品質、サイズ、および groupby 値別にリストされていることが示されます。
    • [クラスター更新] タブで、ソリューション定義で構成した各クラスター更新間隔のクラスターへの変更の概要を確認します。
      図 : 5. クラスター更新の例
      [クラスター更新] タブには、他のクラスターにアサインされたレコード、新しく作成されたレコード、新しいクラスターにアサインされたレコードの数、およびクラスター化されたレコードの合計数が表示されます。