Calidad de datos
La supervisión de la calidad de los datos supervisa automáticamente los modelos de machine learning (ML) en producción y le avisa cuando surgen problemas de calidad de datos. Los modelos de ML en producción tienen que hacer predicciones sobre datos del mundo real que no están cuidadosamente seleccionados como la mayoría de los conjuntos de datos de entrenamiento. Si la naturaleza estadística de los datos que recibe el modelo mientras está en producción se desvía de la naturaleza de los datos de referencia en los que se realizó el entrenamiento, el modelo comienza a perder precisión en sus predicciones. El monitor de modelos de Amazon SageMaker utiliza reglas para detectar la desviación de los datos y le avisa cuando esto ocurre. Para supervisar la calidad de los datos, siga estos pasos:
-
Habilite la captura de datos. Esto captura las entradas y salidas de inferencias de un punto de conexión de inferencia en tiempo real o de un trabajo de transformación por lotes y almacena los datos en Amazon S3. Para obtener más información, consulte Captura de datos.
-
Cree una referencia. En este paso, ejecutará un trabajo de referencia que analiza un conjunto de datos de entrada que usted proporciona. La referencia calcula las restricciones de esquema de referencia y las estadísticas para cada característica utilizando Deequ
, una biblioteca de código abierto creada en Apache Spark, que se utiliza para medir la calidad de los datos en grandes conjuntos de datos. Para obtener más información, consulte Crear una referencia. -
Defina y programe los trabajos de supervisión de la calidad de los datos. Para obtener información específica y ejemplos de códigos de trabajos de supervisión de la calidad de los datos, consulte Programe trabajos de supervisión de la calidad de los datos. Para obtener información general sobre los trabajos de supervisión, consulte Programe trabajos de supervisión.
-
Si lo desea, utilice scripts de preprocesamiento y postprocesamiento para transformar los datos que salen del análisis de calidad de los datos. Para obtener más información, consulte Preprocesamiento y postprocesamiento.
-
-
Vea las métricas de calidad de los datos. Para obtener más información, consulte Esquema para estadísticas (archivo statistics.json).
-
Integre la supervisión de la calidad de los datos con Amazon CloudWatch. Para obtener más información, consulte Métricas de CloudWatch.
-
Interprete los resultados de un trabajo de supervisión. Para obtener más información, consulte Interpretación de los resultados.
-
Utilice SageMaker Studio para permitir la supervisión de la calidad de los datos y visualizar los resultados si utiliza un punto de conexión en tiempo real. Para obtener más información, consulte Visualizar los resultados de los puntos de conexión en tiempo real en Amazon SageMaker Studio.
nota
El monitor de modelos calcula las métricas y estadísticas del modelo únicamente a partir de datos tabulares. Por ejemplo, aún se puede supervisar un modelo de clasificación de imágenes que toma imágenes como entrada y genera una etiqueta basada en esa imagen. El monitor de modelos podría calcular métricas y estadísticas para la salida, no para la entrada.