Die Eingabeaufforderung wird ausgewertet

  • Freigeben Version: Yokohama
  • Aktualisiert 30. Januar 2025
  • 2 Minuten Lesedauer
  • Die Auswertung des Prompts ist ein fortlaufender Prozess, der während und nach der Entwicklung und dem Abschluss des Prompts stattfindet.

    Übersicht über die Aufforderungsbewertung

    Um die Effektivität Ihrer Eingabeaufforderung zu bestimmen, sollten Sie Batches von Testdaten auswerten. Sie sollten die vom Modell generierten Antworten kopieren und Auswertungen außerhalb von Now Assist Skill Kitdurchführen.

    Während der Prompt-Entwicklung

    Begleitend zur Entwicklung des Prompts sollte eine laufende, zufällige Evaluierung erfolgen. Mit dieser laufenden Auswertung können Sie die Eingabeaufforderung basierend auf den beobachteten Modellausgaben anpassen. Es kann verlockend sein, eine Änderung an einer Aufforderung anhand von nur einem oder zwei Beispielen zu testen. Um jedoch eine Reaktion auf Rauschen zu vermeiden, sollten Sie sich größere Batches ansehen und die statistische Signifikanz der beobachteten Leistungsunterschiede berücksichtigen.

    Diagramm, das einen Vergleich der Prompt-Leistung zeigt.

    Abschließende Leistungsbewertung

    Bevor Sie eine Kompetenz bereitstellen, sollten Sie die Eingabeaufforderung für einen repräsentativen Daten-Batch testen, der vom Entwicklungsprozess isoliert wurde, d. h. „Test“-Daten. Sie möchten isolierte Testdaten verwenden, da ein Problem auftritt, das als Überanpassung der Eingabeaufforderung bezeichnet wird. Das iterative Bearbeiten einer Eingabeaufforderung basierend auf den Modellausgaben, die für die gleichen Daten generiert wurden, die zum Testen verwendet werden, kann zu erheblichen Überschätzungen der Leistung führen. Dieses Ergebnis ist darauf zurückzuführen, dass der Prompt auf die spezifischen Beispiele, die in der Entwicklung verwendet werden, übermäßig spezialisiert werden kann. Auch wenn der Effekt normalerweise weniger schwerwiegend ist als bei der Anpassung von Modellparametern für maschinelles Lernen an einen Testdatensatz, beruht er auf denselben zugrunde liegenden Prinzipien und sollte vermieden werden.

    Auswertungsmetriken

    Die Auswahl der richtigen Metriken für die Auswertung ist ein wichtiger Aspekt. Die folgende Liste enthält einige Ansätze, die je nach Anwendungsfall mehr oder weniger geeignet sein können.

    • Klassifizierungsbasierte Bewertung von kurzen Generationen

      Dieser Ansatz erfordert gekennzeichnete Datensätze und funktioniert am besten, wenn die Bezeichnungen kurze, gut definierte „richtige Antworten“ sind, z. B. true oder false, Multiple-Choice oder Kategorieauswahl. In diesen Fällen können die Modellausgaben normalerweise analysiert und formatiert werden, dann können Metriken wie Genauigkeit, Rückruf, F1-Punktzahlen usw. direkt berechnet werden.

    • Bewertung längerer Generationen

      Viele der interessantesten Anwendungsfälle für generative KI erfordern längere Modellgenerierungen, und es gibt viele mögliche „richtige Antworten“. In diesen Fällen kann die Ausgabe (von menschlichen Gutachtern) entlang verschiedener Achsen bewertet werden, z. B.:

      • Treue

        Entspricht der generierte Text dem in der Kompetenzaufforderung angegebenen Kontext? (Das Gegenteil von Treue ist „Halluzination“, was bedeutet, dass das Modell Informationen außerhalb des Kontexts einschleust.)

      • Korrektheit

        Ist der generierte Text in Bezug auf die Kompetenzanweisung korrekt?

      • Nützlichkeit

        Ist der generierte Text in Bezug auf die Aufgabe, die die Kompetenz erfüllen möchte, hilfreich? (Hilfsbereitschaft ist subjektiv, aber es ist wichtig zu versuchen, sie zu messen. Um dies richtig zu machen, müssen Sie die Bedürfnisse der Personen verstehen, die diese Kompetenz letztendlich verwenden.)

      • Sprachgewandtheit

        Ist der generierte Text grammatikalisch korrekt? Hat sie Tippfehler, Probleme mit der Kohärenz usw.?

      Hinweis:
      Es ist nützlich, diese Eigenschaften auf einer Skala von 1 bis 5 zu bewerten und nicht mit „Ja“ oder „Nein“.