Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Selección de los datos para el etiquetado
<a name="sms-data-filtering"></a>

Puede usar la consola Amazon SageMaker AI para seleccionar una parte del conjunto de datos para el etiquetado. Los datos tienen que estar almacenados en un bucket de Amazon S3. Tiene tres opciones:
+ Utilizar el conjunto de datos completo.
+ Elegir una muestra seleccionada al azar del conjunto de datos.
+ Especificar un subconjunto del conjunto de datos mediante una consulta.

Las siguientes opciones están disponibles en la sección **Trabajos de etiquetado** de la [consola de SageMaker IA](https://console.aws.amazon.com/sagemaker/groundtruth) después de seleccionar **Crear trabajo de etiquetado**. Para obtener información sobre cómo crear un trabajo de etiquetado en la consola, consulte [Introducción: creación de un trabajo de etiquetado mediante cuadros delimitadores con Ground Truth](sms-getting-started.md). Para configurar el conjunto de datos que utiliza para el etiquetado, en la sección **Job overview (Descripción general del trabajo)**, elija **Additional configuration (Configuración adicional)**.

## Usar el conjunto de datos completo
<a name="sms-full-dataset"></a>

Si elige **Conjunto de datos completo**, debe proporcionar un archivo de manifiesto para los objetos de datos. Puede proporcionar la ruta del bucket de Amazon S3 que contiene el archivo de manifiesto o utilizar la consola SageMaker AI para crear el archivo. Para obtener información sobre cómo crear un archivo de manifiesto mediante la consola, consulte [Automatización de la configuración de datos para los trabajos de etiquetado](sms-console-create-manifest-file.md). 

## Elegir una muestra aleatoria
<a name="sms-random-dataset"></a>

Cuando desee etiquetar un subconjunto aleatorio de sus datos, seleccione **Random sample (Muestra aleatoria)**. El conjunto de datos se almacena en el bucket de Amazon S3 especificado en el campo **Ubicación del conjunto de datos de entrada**. 

Una vez que haya especificado el porcentaje de objetos de datos que desea incluir en la muestra, elija **Crear subconjunto**. SageMaker La IA selecciona aleatoriamente los objetos de datos para su trabajo de etiquetado. Una vez que haya seleccionado los objetos, elija **Use this subset (Usar este subconjunto)**. 

SageMaker La IA crea un archivo de manifiesto para los objetos de datos seleccionados. También modifica el valor en el campo **Input dataset location (Ubicación del conjunto de datos de entrada)** para apuntar al nuevo archivo de manifiesto.

## Especificar un subconjunto
<a name="sms-select-dataset"></a>

**Amazon S3 Select**  
Amazon S3 Select ya no está disponible para los nuevos clientes. Los clientes actuales de Amazon S3 Select pueden seguir utilizando la característica de la forma habitual. Para obtener más información, consulte [How to optimize querying your data in Amazon S3](https://aws.amazon.com/blogs/storage/how-to-optimize-querying-your-data-in-amazon-s3/).

Puede especificar un subconjunto de objetos de datos mediante una consulta `SELECT` de Amazon S3 en los nombres de archivos de objeto. 

La instrucción `SELECT` de la consulta SQL la define el usuario. Tiene que proporcionar la cláusula `WHERE` para especificar qué objetos de datos se deben devolver.

Para obtener más información acerca de la instrucción `SELECT` de Amazon S3, consulte [Selección de contenido de los objetos](https://docs.aws.amazon.com/AmazonS3/latest/dev/selecting-content-from-objects.html).

Seleccione **Create subset (Crear subconjunto)** para iniciar la selección y, a continuación, elija **Use this subset (Utilizar este subconjunto)** para utilizar los datos seleccionados. 

SageMaker AI crea un archivo de manifiesto para los objetos de datos seleccionados. También actualiza el valor en el campo **Input dataset location (Ubicación del conjunto de datos de entrada)** para que apunte al nuevo archivo de manifiesto.