プロンプトの評価

  • リリースバージョン: Yokohama
  • 更新日 2025年01月30日
  • 所要時間:2分
  • プロンプトの評価は、プロンプトの開発と完了の最中および完了後に行われる継続的なプロセスです。

    プロンプト評価の概要

    プロンプトの有効性を判断するには、テストデータのバッチを評価する必要があります。モデルで生成された応答をコピーし、 Now Assist スキルキットの外部で評価を実行する必要があります。

    プロンプト開発中

    プロンプトの開発と並行して、継続的で即興的な評価が行われるべきです。この継続的な評価により、観察されたモデル出力に基づいてプロンプトを調整できます。プロンプトへの変更を 1 つか 2 つの例だけでテストしたくなるかもしれませんが、ノイズに反応しないようにするには、より大きなバッチを調べて、観察したパフォーマンスの違いの統計的有意性を考慮する必要があります。

    プロンプトのパフォーマンスの比較を示すチャート。

    最終業績評価

    スキルをデプロイする前に、開発プロセスから分離された代表的なデータ・バッチ、つまり「テスト」データでプロンプトをテストする必要があります。分離されたテストデータを使用するのは、プロンプトオーバーフィットと呼ばれる現象があるためです。テストに使用されるものと同じデータで生成されたモデル出力に基づいてプロンプトを繰り返し編集すると、パフォーマンスが大幅に過大評価される可能性があります。この結果は、プロンプトが開発で使用される特定の例に過度に特殊化される可能性があるためです。通常、この影響は、機械学習モデル パラメーターをテスト データセットに適合させるときに発生する影響よりも劇的ではありませんが、同じ基本的な原則に基づいているため、避ける必要があります。

    評価メトリクス

    評価のための適切なメトリクスを選択することは、重要な考慮事項です。次のリストにはいくつかのアプローチが示されていますが、それぞれがユースケースに応じて多かれ少なかれ適切である可能性があります。

    • 短世代の分類ベースの評価

      このアプローチにはラベル付きレコードが必要であり、ラベルが短く、明確に定義された「正しい回答」である場合に最適です (true または false、複数選択肢、カテゴリ選択など)。このような場合、通常はモデル出力を解析して書式設定してから、精度、再現率、F1 スコアなどのメトリクスを直接計算できます。

    • より長い世代の評価

      最も興味深い生成AIのユースケースの多くは、より長いモデル生成を必要とし、多くの可能な「正解」があります。このような場合、出力は (人間の評価者によって) いくつかの異なる軸に沿ってスコアリングできます。

      • 信実

        生成されたテキストは、スキルプロンプトで指定されたコンテキストに忠実ですか? (忠実さの反対は幻覚であり、つまり、モデルが文脈外の情報を注入するということです。

      • 正確性

        生成されたテキストはスキルの指示に対して正しいですか?

      • 有用性

        生成されたテキストは、スキルが達成したいタスクに関連して役立ちますか? (有用性は主観的なものですが、測定しようとすることが重要です。適切に行うには、最終的にスキルを使用する人々のニーズをしっかりと理解する必要があります。

      • 流暢

        生成されたテキストは文法的に正しいですか? 誤字脱字や一貫性の問題などはありますか?

      注:
      これらのプロパティは、「はい」または「いいえ」ではなく、1〜5 などのスケールでスコアを付けると便利です。