Die Eingabeaufforderung wird ausgewertet
Die Auswertung des Prompts ist ein fortlaufender Prozess, der während und nach der Entwicklung und dem Abschluss des Prompts stattfindet.
Übersicht über die Aufforderungsbewertung
Um die Effektivität Ihrer Eingabeaufforderung zu bestimmen, sollten Sie Batches von Testdaten auswerten. Sie sollten die vom Modell generierten Antworten kopieren und Auswertungen außerhalb von Now Assist Skill Kitdurchführen.
Während der Prompt-Entwicklung
Begleitend zur Entwicklung des Prompts sollte eine laufende, zufällige Evaluierung erfolgen. Mit dieser laufenden Auswertung können Sie die Eingabeaufforderung basierend auf den beobachteten Modellausgaben anpassen. Es kann verlockend sein, eine Änderung an einer Aufforderung anhand von nur einem oder zwei Beispielen zu testen. Um jedoch eine Reaktion auf Rauschen zu vermeiden, sollten Sie sich größere Batches ansehen und die statistische Signifikanz der beobachteten Leistungsunterschiede berücksichtigen.
Abschließende Leistungsbewertung
Bevor Sie eine Kompetenz bereitstellen, sollten Sie die Eingabeaufforderung für einen repräsentativen Daten-Batch testen, der vom Entwicklungsprozess isoliert wurde, d. h. „Test“-Daten. Sie möchten isolierte Testdaten verwenden, da ein Problem auftritt, das als Überanpassung der Eingabeaufforderung bezeichnet wird. Das iterative Bearbeiten einer Eingabeaufforderung basierend auf den Modellausgaben, die für die gleichen Daten generiert wurden, die zum Testen verwendet werden, kann zu erheblichen Überschätzungen der Leistung führen. Dieses Ergebnis ist darauf zurückzuführen, dass der Prompt auf die spezifischen Beispiele, die in der Entwicklung verwendet werden, übermäßig spezialisiert werden kann. Auch wenn der Effekt normalerweise weniger schwerwiegend ist als bei der Anpassung von Modellparametern für maschinelles Lernen an einen Testdatensatz, beruht er auf denselben zugrunde liegenden Prinzipien und sollte vermieden werden.
Auswertungsmetriken
Die Auswahl der richtigen Metriken für die Auswertung ist ein wichtiger Aspekt. Die folgende Liste enthält einige Ansätze, die je nach Anwendungsfall mehr oder weniger geeignet sein können.
- Klassifizierungsbasierte Bewertung von kurzen Generationen
Dieser Ansatz erfordert gekennzeichnete Datensätze und funktioniert am besten, wenn die Bezeichnungen kurze, gut definierte „richtige Antworten“ sind, z. B. true oder false, Multiple-Choice oder Kategorieauswahl. In diesen Fällen können die Modellausgaben normalerweise analysiert und formatiert werden, dann können Metriken wie Genauigkeit, Rückruf, F1-Punktzahlen usw. direkt berechnet werden.
- Bewertung längerer Generationen
Viele der interessantesten Anwendungsfälle für generative KI erfordern längere Modellgenerierungen, und es gibt viele mögliche „richtige Antworten“. In diesen Fällen kann die Ausgabe (von menschlichen Gutachtern) entlang verschiedener Achsen bewertet werden, z. B.:
- Treue
Entspricht der generierte Text dem in der Kompetenzaufforderung angegebenen Kontext? (Das Gegenteil von Treue ist „Halluzination“, was bedeutet, dass das Modell Informationen außerhalb des Kontexts einschleust.)
- Korrektheit
Ist der generierte Text in Bezug auf die Kompetenzanweisung korrekt?
- Nützlichkeit
Ist der generierte Text in Bezug auf die Aufgabe, die die Kompetenz erfüllen möchte, hilfreich? (Hilfsbereitschaft ist subjektiv, aber es ist wichtig zu versuchen, sie zu messen. Um dies richtig zu machen, müssen Sie die Bedürfnisse der Personen verstehen, die diese Kompetenz letztendlich verwenden.)
- Sprachgewandtheit
Ist der generierte Text grammatikalisch korrekt? Hat sie Tippfehler, Probleme mit der Kohärenz usw.?
Hinweis:Es ist nützlich, diese Eigenschaften auf einer Skala von 1 bis 5 zu bewerten und nicht mit „Ja“ oder „Nein“. - Treue