Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Analyse des résultats d’une tâche d’évaluation automatique
Lorsque votre tâche d’évaluation automatique de modèles se termine, les résultats sont enregistrés dans Amazon S3. Les sections suivantes décrivent les fichiers générés et comment les interpréter.
Interprétation de la structure du fichier output.json
Le fichier output.json contient les scores agrégés pour les jeux de données et les métriques que vous avez sélectionnés.
Voici un exemple de sortie :
{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }
Interprétation de la structure du fichier de résultats par instance
Un fichier evaluation_name _ dataset_name .jsonl contenant les résultats par instance pour chaque requête jsonlines. Si vous avez reçu des demandes 300 dans vos données d’entrée jsonlines, ce fichier de sortie jsonlines contient les réponses 300. Le fichier de sortie contient la demande adressée à votre modèle, suivie du score de cette évaluation. Vous trouverez ci-dessous un exemple de sortie par instance.
Interprétation du rapport
Un rapport d’évaluation contient les résultats de votre tâche d’évaluation de modèles de fondation. Le contenu du rapport d’évaluation dépend du type de tâche que vous avez utilisé pour évaluer votre modèle. Chaque rapport contient les sections suivantes :
-
Les scores globaux pour chaque évaluation réussie dans le cadre de la tâche d’évaluation. Comme exemple d’une évaluation portant sur un seul jeu de données, si vous avez évalué votre modèle pour une tâche de classification d’exactitude et de robustesse sémantique, un tableau synthétisant les résultats de l’évaluation de l’exactitude et de la robustesse sémantique d’exactitude apparaît en haut de votre rapport. D’autres évaluations portant sur d’autres jeux de données peuvent être structurées différemment.
-
La configuration de votre tâche d’évaluation, y compris le nom et le type du modèle, les méthodes d’évaluation utilisées et les jeux de données par rapport auxquels votre modèle a été évalué.
-
Une section Résultats d’évaluation détaillés qui résume l’algorithme d’évaluation, fournit des informations et des liens vers les jeux de données intégrés, la façon dont les scores sont calculés, ainsi que des tableaux présentant des exemples de données avec leurs scores associés.
-
Une section Évaluations échouées qui contient la liste des évaluations qui n’ont pas été terminées. Si aucune évaluation n’a échoué, cette section du rapport est omise.