Métricas para ajustar modelos de lenguaje grandes en Piloto automático - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Métricas para ajustar modelos de lenguaje grandes en Piloto automático

En la siguiente sección, se describen las métricas que puede utilizar para comprender los modelos de lenguaje de gran tamaño (LLM) refinados. Con el conjunto de datos, Piloto automático refina directamente un LLM objetivo, con el fin de mejorar una métrica objetivo predeterminada: la pérdida de entropía cruzada.

La pérdida de entropía cruzada es una métrica muy utilizada para evaluar la diferencia entre la distribución de probabilidad prevista y la distribución real de las palabras en los datos de entrenamiento. Al minimizar la pérdida de entropía cruzada, el modelo aprende a hacer predicciones más precisas y relevantes desde el punto de vista del contexto, especialmente en las tareas relacionadas con la generación de texto.

Tras refinar un LLM, puede evaluar la calidad del texto generado utilizando una serie de puntuaciones de ROUGE. Además, puede analizar la perplejidad y las pérdidas de entrenamiento y validación por entropía cruzada como parte del proceso de evaluación.

  • La pérdida de perplejidad mide hasta qué punto el modelo puede predecir la siguiente palabra de una secuencia de texto; los valores más bajos indican una mejor comprensión del idioma y el contexto.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE) consiste en un conjunto de métricas que se utilizan en el campo del procesamiento de lenguaje natural (NLP) y el machine learning para evaluar la calidad del texto generado, por ejemplo, en tareas de resumen o generación de texto. Principalmente, evalúa las similitudes entre el texto generado y el texto veraz (escrito por humanos) en un conjunto de datos de validación. Las medidas de ROUGE se han diseñado para evaluar varios aspectos de la similitud de los textos, como la precisión y la exhaustividad de los n-gramas (secuencias contiguas de palabras) en los textos de referencia y los generados por el sistema. El objetivo es evaluar el grado de precisión de un modelo al capturar la información presente en el texto de referencia.

    Existen distintas variantes de las métricas de ROUGE, según el tipo de n-gramas utilizados y los aspectos específicos de la calidad del texto que se estén evaluando.

    La siguiente lista contiene el nombre y la descripción de las métricas de ROUGE disponibles tras el refinamiento de modelos de lenguaje de gran tamaño en Piloto automático.

    ROUGE-1, ROUGE-2

    ROUGE-N, la métrica principal de ROUGE, mide la superposición de n-gramas entre los textos generados por el sistema y los de referencia. ROUGE-N se puede ajustar a distintos valores de n (aquí 1 o 2) para evaluar la precisión del texto generado por el sistema a la hora de capturar los n-gramas del texto de referencia.

    ROUGE-L

    ROUGE-L (ROUGE-Longest Common Subsequence) calcula la subsecuencia común más larga entre el texto generado por el sistema y el texto de referencia. Esta variante tiene en cuenta el orden de las palabras además de la superposición del contenido.

    ROUGE-L-Sum

    ROUGE-L-SUM (Longest Common Subsequence for Summarization) se ha diseñado para la evaluación de sistemas de resumen de textos. Su objetivo es medir la subsecuencia común más larga entre el resumen generado automáticamente y el resumen de referencia. ROUGE-L-SUM tiene en cuenta el orden de las palabras del texto, lo que es importante en las tareas de resumen de textos.