Generación de informes sobre el sesgo en los datos previos al entrenamiento en SageMaker Studio - Amazon SageMaker AI

Generación de informes sobre el sesgo en los datos previos al entrenamiento en SageMaker Studio

SageMaker Clarify está integrado con Amazon SageMaker Data Wrangler, lo que puede ayudarle a identificar los sesgos durante la preparación de los datos sin tener que escribir su propio código. Data Wrangler proporciona una solución integral para importar, preparar, transformar, caracterizar y analizar datos con Amazon SageMaker Studio. Para obtener información general acerca del flujo de trabajo de preparación de datos de Data Wrangler, consulte Preparación de datos de machine learning con Amazon SageMaker Data Wrangler.

Usted especifica los atributos de interés, como el sexo o la edad, y SageMaker Clarify ejecuta un conjunto de algoritmos para detectar la presencia de sesgos en esos atributos. Una vez ejecutado el algoritmo, SageMaker Clarify proporciona un informe visual con una descripción de los orígenes y la gravedad del posible sesgo para que pueda planificar medidas para mitigarlo. Por ejemplo, en un conjunto de datos financieros que contenga pocos ejemplos de préstamos empresariales concedidos a un grupo de edad en comparación con otros, SageMaker AI señala el desequilibrio para evitar un modelo que desfavorezca a ese grupo de edad.

Para analizar e informar sobre el sesgo de los datos

Para comenzar a utilizar Data Wrangler, consulte Introducción a Data Wrangler.

  1. En Amazon SageMaker Studio Classic, en el menú Inicio ( Black square icon representing a placeholder or empty image. ) del panel izquierdo, vaya hasta el nodo Datos y, a continuación, seleccione Data Wrangler. Esto abre la página de inicio de Data Wrangler en Studio Classic.

  2. Pulse el botón + Importar datos para crear un flujo nuevo.

  3. En la página de flujo, en la pestaña Importar, seleccione Amazon S3 vaya a su bucket de Amazon S3, busque su conjunto de datos y, a continuación, seleccione Importar.

  4. Tras importar los datos, en el gráfico de flujo de la pestaña Flujo de datos, elija el signo + situado a la derecha del nodo Tipos de datos.

  5. Elija Agregar análisis.

  6. En la página Crear análisis, elija Informe de sesgo para Tipo de análisis.

  7. Para configurar el informe de sesgo, proporcione un Nombre del informe, la columna que se debe predecir y si se trata de un valor o un umbral, la columna que se va a analizar para detectar el sesgo (la faceta) y si se trata de un valor o un umbral.

  8. Siga con la configuración del informe de sesgo seleccionando las métricas de sesgo.

    Elija la métrica de sesgo.
  9. Elija Detectar sesgos para generar y ver el informe de sesgo. Desplácese hacia abajo para ver todos los informes.

    Genere y visualice el informe de sesgo.
  10. Seleccione el cursor situado a la derecha de la descripción de cada métrica de sesgo para ver la documentación que puede ayudarle a interpretar la importancia de los valores de las métricas.

  11. Para ver un resumen de los valores de las métricas de sesgo en una tabla, seleccione la opción Tabla. Para guardar el informe, elija Guardar en la esquina inferior derecha de la página. Puede ver el informe en el gráfico de flujo de la pestaña Flujo de datos. Haga doble clic en el informe para abrirlo.