評価メトリクスと計算
会話が評価されるメトリクスと調整済みスコアの計算。
メトリクス
[メトリクスを選択] リストには、選択した日付範囲で各会話が評価されるすべてのメトリクスが表示されます。各メトリクスに基づいて評価の傾向をフィルタリングできます。次のメトリクスが利用可能です。
| メトリクス | 説明 |
|---|---|
| 完了を要求 | ユーザーの意図を正確に識別し、必要なすべての情報を収集 (スロット入力) することによって、ユーザー要求を完了する仮想エージェントの能力を測定します。 |
| インテントの精度 | 仮想エージェントがユーザーの要求を理解し、関連する応答を返す能力を示します。 |
| スロット入力 | ユーザーの応答を解釈し、必要な質問に対する構造化された回答を抽出する仮想エージェントの機能を示します。 |
| スムーズな会話の流れ (デッドロック回避) | 仮想エージェントが動的に応答し、会話を繰り返さずに正常に進行するかどうかを確認します。 |
| コンテキストの保持 | 仮想エージェントが、要求の解釈やスロット入力など、会話中に提供された情報を保持および使用することに成功したかどうかを示します。 |
| 真実性(幻覚防止) | 仮想エージェントが、捏造または記憶と理解の失敗を除いて、会話に基づいた本物の応答を生成したかどうかを示します。 |
| 簡潔さ (冗長性の回避) | 会話の核心的な意図に貢献しない、余分な応答や冗長な一般的な応答を回避する仮想エージェントの能力をチェックします。 |
| 辻褄 | 仮想エージェントの応答の明確な論理フロー、構造、および構成を確認します。 |
| 顧客満足度 | 会話が評価された他のすべてのメトリクスの加重平均。 |
注:
すべてのメトリクスは 3 または 5 のスケールで評価され、最終的に 5 にスケールアップされます。
計算
逸脱と調整済みスコアの計算:
時間の経過とともに自動評価スコアを人間の判断に合わせるために、偏差が計算され、メトリクスレベルで調整されたスコアを生成するために使用されます。
- 上限偏差
条件:過去 6 か月間に自動評価されたスコアよりも高い人間によってラベル付けされたスコアの数が 30 を超える場合。
計算:これらのケースの上位 90% が取得され、人間によるスコアと自動評価されたスコアの差 (デルタ) が平均化されます。このデルタが上限偏差です。
- 下限偏差
条件:過去 6 か月間に自動評価されたスコアよりも低い人間によってラベル付けされたスコアの数が 30 を超える場合。
計算:これらのケースの上位 90% が取得され、人間によるスコアと自動評価されたスコアの差 (デルタ) が平均化されます。このデルタは下限偏差です。
- 調整済みスコア最終的な調整済みスコアは、逸脱の可用性に基づいて計算されます。
- 特定のメトリクスに対して上下偏差の少なくとも 30 の個別の評価がラベル付けされている場合、エラーバンドは SUM(平均ラベル付けスコア – LLM スコア)/個別の評価として計算されます。このエラーバンドは、調整済みスコアを取得するために自動評価スコアに追加されます。
- どちらの逸脱も利用できない場合、調整済みスコア = 自動評価スコア
自動評価ユーザー満足度スコア、人間によるユーザー満足度スコア、および評価レベルの上下偏差の計算:
- 自動評価ユーザー満足度スコア:指定した評価について、LLM で生成された各メトリクスのすべてのスコアを取得し、SUM(メトリクススコア * メトリクスの重み付け)/SUM(メトリクスの重み付け) を計算します。
- 人間のユーザー満足度スコア:特定の評価で、少なくとも 1 つのメトリクスにラベルが付けられている場合は、人間のユーザー満足度スコアの計算と見なされます。ラベル付けされている場合はラベル付けスコアが使用され、ラベル付けされていない場合は LLM スコアが使用されます。SUM(メトリクススコア * メトリクスの重み付け)/SUM(メトリクスの重み付け)として計算されます。
- ギャップ:ギャップは、(人間のユーザー満足度スコア – 自動評価満足度スコア) として計算されます。
- 上限偏差:ギャップが正で、レコードが 30 件を超える場合、エラーバンドは SUM(正のギャップ)/個別評価によって上位 90% で計算されます。このエラーバンドは、自動評価ユーザー満足度スコアに追加されます。
- 下限偏差:ギャップが負で、レコードが 30 件を超える場合、エラーバンドは SUM(負のギャップ)/個別評価によって上位 90% で計算されます。このエラーバンドは、自動評価ユーザー満足度スコアに追加されます。
- 調整後のユーザー満足度スコアは、SUM(ギャップ)/個別の評価として計算されます。
注:
- ユーザーによって行われた複数の異なる要求がある場合でも、評価者はチャットごとに集計スコアを提供します。
- パフォーマンスアナリティクスインジケーターは、経時的な平均スコアを計算するために使用されます。履歴データに対してバッチ ジョブを実行する場合、パフォーマンスアナリティクスインジケーターの定義により、これらの評価は集計スコアで評価日にカウントされ、実際のチャット日のスコアにはカウントされません。