Métriques de peaufinage des grands modèles de langage dans Autopilot - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Métriques de peaufinage des grands modèles de langage dans Autopilot

La section suivante décrit les métriques que vous pouvez utiliser pour comprendre vos grands modèles de langage (LLM) peaufinés. À l’aide de votre jeu de données, Autopilot optimise directement un modèle LLM cible pour améliorer une métrique objective par défaut : la perte d’entropie croisée.

La perte d’entropie croisée est une métrique largement utilisée pour évaluer la dissemblance entre la distribution de probabilité prévue et la distribution réelle des mots dans les données d’entraînement. En minimisant la perte d’entropie croisée, le modèle apprend à faire des prédictions plus précises et pertinentes contextuellement, en particulier dans les tâches liées à la génération de texte.

Après avoir peaufiné un LLM, vous pouvez évaluer la qualité du texte généré à l’aide d’une gamme de scores ROUGE. De plus, vous pouvez analyser la perplexité et les pertes d’entropie croisée de l’entraînement et de la validation dans le cadre du processus d’évaluation.

  • La perte de perplexité mesure la capacité du modèle à prédire le mot suivant dans une séquence de texte, les valeurs les plus faibles indiquant une meilleure compréhension du langage et du contexte.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE) est un ensemble de métriques utilisé dans le domaine du traitement du langage naturel (NLP) et du machine learning pour évaluer la qualité du texte généré par la machine, tel que la génération ou la synthétisation de texte. Il évalue principalement les similitudes entre le texte généré et le texte de référence (écrit par des humains) d’un jeu de données de validation. Les mesures ROUGE sont conçues pour évaluer divers aspects de la similitude des textes, notamment la précision et le rappel des n-grammes (séquences contiguës de mots) dans les textes générés par le système et les textes de référence. L’objectif est d’évaluer dans quelle mesure un modèle capture les informations présentes dans le texte de référence.

    Il existe plusieurs variantes de métriques ROUGE, en fonction du type de n-grammes utilisé et des aspects spécifiques de la qualité du texte évalué.

    La liste suivante contient le nom et la description des métriques ROUGE disponibles après le peaufinage de grands modèles de langage dans Autopilot.

    ROUGE-1, ROUGE-2

    ROUGE-N, la métrique ROUGE principale, mesure le chevauchement des n-grammes entre les textes générés par le système et les textes de référence. ROUGE-N peut être ajustée à différentes valeurs de n (ici 1 ou 2) pour évaluer dans quelle mesure le texte généré par le système capture les n-grammes du texte de référence.

    ROUGE-L

    ROUGE-L (Sous-séquence commune ROUGE-Longest) calcule la plus longue sous-séquence commune entre le texte généré par le système et le texte de référence. Cette variante prend en compte l’ordre des mots en plus du chevauchement du contenu.

    ROUGE-L-Sum

    ROUGE-L-SUM (Sous-séquence commune la plus longue pour la synthétisation) est conçue pour l’évaluation des systèmes de synthétisation de texte. Elle se concentre sur la mesure de la sous-séquence commune la plus longue entre le résumé généré par la machine et le résumé de référence. ROUGE-L-SUM prend en compte l’ordre des mots dans le texte, ce qui est important dans les tâches de synthétisation de texte.