評価ダッシュボードとともにインストールされるコンポーネント
[評価] タブには、スケジュール済みジョブ、テーブル、システムプロパティ、フローなど、さまざまなタイプのコンポーネントが含まれています。
インストールされたスケジュール済みジョブ
| スケジュール済みジョブ | 説明 |
|---|---|
|
CE 値集計を入力 チャット - 日次 |
このスケジュール設定済みスクリプトは毎日実行され、昨日の会話から 1000 件の会話をランダムに選択します。その後、このジョブは会話ごとにチャット期間を抽出し、小、中、または大に分類します。また、 ナレッジ 記事またはカタログアイテムが呼び出されたチャットも分類されます。評価されたチャットでは、チャットのパフォーマンスに基づいて会話が分類され、そのデータが評価値の集計テーブルに入力されます。 |
| 評価値計算:インストール後に 1 回のみ実行します | 評価値集計テーブルのすべてのレコードを削除して計算を再実行し、集計値を評価値集計テーブルに保存します。データは最初の評価日からのものです。 |
インストールされるテーブル
| ラベル | 名前 |
|---|---|
| 評価 |
[sn_na_conv_eval_evaluation] |
| 評価構成 |
[sn_na_conv_eval_evaluation_configurations] |
| 評価メトリクス |
[sn_na_conv_eval_evaluation_metrics] |
| 評価セット |
[sn_na_conv_eval_evaluation_set] |
|
評価値の集計 |
[sn_na_conv_eval_evaluation_value_aggregates] |
インストールされたリモートテーブル
| テーブル | 説明 |
|---|---|
|
会話エバリュエーターの値の計算 [sn_na_conv_eval_st_value_calcs] |
指定したクエリについて、このリモートテーブルの定義は、小規模、中規模、および大規模のチャットの時間節減率と効率パーセンテージを計算します。また、 ナレッジ 記事またはカタログアイテムが呼び出されたときの時間の節約と効率も返されます。 |
| 会話の週次計算 [sn_na_conv_eval_weekly_cals] |
指定したクエリについて、このリモートテーブルの定義は、選択した日付範囲のさまざまな週の小規模、中規模、および大規模のチャットの時間節減率と効率率を計算します。また、選択した日付範囲の異なるすべての週についてナレッジ 記事またはカタログアイテムが呼び出された場合の時間の節約と効率を返します。 |
インストールされているシステムプロパティ
| プロパティ | 説明 |
|---|---|
|
sn_na_conv_eval.errorBandMinRecords |
上下偏差のエラーバンドを計算するために必要なレコードの最小数。デフォルト値は 30 です。 |
|
sn_na_conv_eval.evalWeights |
チャット評価の各評価メトリクスへの重み付けが含まれます。このプロパティは、評価レコードの合計スコアまたは複合スコアを計算するために使用されます。 |
|
sn_na_conv_eval.maxEvaluateCount |
1 日に評価するレコードの最大数。デフォルト値は 200 です。 |
|
sn_na_conv_eval.total_sampled_conv_count |
このプロパティを編集して、値計算のためにサンプリングできる会話の合計数を制御します。デフォルト値は 1,000 です。 |
| sn_na_conv_eval.value_chat_classifier |
このプロパティを編集して、小、中、大の会話の定義を変更します。デフォルトでは、格納される値は 4, 10 です。 ここで、4 と 10 は受信メッセージの合計数を表します。会話のsys_cs_messageテーブル内の受信メッセージが 4 つ以下の場合は、小規模な会話であることを意味します。受信メッセージが 4 件を超え、受信メッセージが 10 件以下の場合は中程度の会話であることを意味し、10 件を超える受信メッセージは大規模な会話であることを意味します。 |
| sn_na_conv_eval.ce_value_calculation_weights | 評価されたチャットのタイプごとの値計算による重み付け値。 |
| sn_na_conv_eval.eval_value_rerun_status | インストール後に値の計算を 1 回再実行します。このプロパティは、会話エバリュエーター値の再実行ステータスを確認します。実行されている場合、スクリプトはこのシステムプロパティの値を false に変更します。 |
インストールされるビジネスルール
| 名前 | 時期 | 挿入 | 更新 | フィルター条件 |
|---|---|---|---|---|
| 評価セットの情報メッセージを追加 | 後 | TRUE | TRUE | stateCHANGESTOIn Progress^evaluation_type=conversation^EQ |
| スケールアップラベル付けメトリクス | 次の値より前 | TRUE | TRUE | metric_type=ラベリング^metric_nameINhelpfulness_chat_eval、intent_recognition_chat_eval、slot_filling_chat_eval、forgetfulness_chat_eval、hallucination_chat_eval、redundancy_chat_eval、deadlock_chat_eval、coherence_chat_eval^raw_scoreVALCHANGES^EQ |
| updateLabelingScoresOnEvaluation | 後 | TRUE | TRUE | metric_type=ラベリング^raw_scoreVALCHANGES^metric_nameINhelpfulness_chat_eval,intent_recognition_chat_eval,slot_filling_chat_eval,forgetfulness_chat_eval,hallucination_chat_eval,redundancy_chat_eval,deadlock_chat_eval,coherence_chat_eval^EQ |
| 逸脱スコアを更新 | 次の値より前 | TRUE | TRUE | metric_type=LLM 生成日^scoreVALCHANGES^EQ |
| getAutoEvalCompositeScore | 後 | FALSE | TRUE | stateCHANGESTOComplete^total_scoreISEMPTY^EQ |
インストールされたフロー
| フロー | 説明 |
|---|---|
|
評価を実行 |
会話が完了したときに評価を実行します。 デフォルトでは、[評価を実行] フローは非アクティブになっています。夜間にスケジュールされたジョブ [評価を実行] を使用して、チャットを評価できます。チャット完了時にチャットを評価する場合は、[評価を実行] フローをアクティブ化します。 |
| バッチ評価を実行 | バッチ評価を実行し、完了した最大 100 件の仮想エージェント会話を評価します。フローは、評価セットが作成または更新され、[評価タイプ] が [会話] である場合にトリガーされます。 |
インストールされたフローアクション
| フローアクション | 説明 |
|---|---|
|
会話をランダム表示 |
会話のランダム化を実行し、指定されたクエリからランダムに 100 件の会話を返します。 |
| invokeApiDefinition | 大規模言語モデル (LLM) で OneExtend 機能を呼び出します。 |
| チャット分類子の評価 | タイトル、カテゴリ、および評価を実行するかどうかを示します。 |
| ビルドトランスクリプト | 会話からトランスクリプトを作成します。 |
| evalExecuteCondition | 成績証明書が評価されるほど優れているかどうかを確認します。 |
インストールされたスクリプトインクルード
| スクリプトインクルード | 説明 |
|---|---|
| evalExecuteCondition |
このスクリプトインクルードを使用して、評価条件を更新します。 |
| evalUtil | エバリュエーターのプライマリユーティリティ関数。 |