Administración de las rutas de almacenamiento para diferentes tipos de almacenamiento local de instancias - Amazon SageMaker AI

Administración de las rutas de almacenamiento para diferentes tipos de almacenamiento local de instancias

Tenga en cuenta lo siguiente al configurar rutas de almacenamiento para trabajos de entrenamiento en SageMaker AI.

  • Si desea almacenar artefactos para entrenamiento distribuido en el directorio /opt/ml/output/data, debe asociar correctamente los subdirectorios o usar nombres de archivo únicos para los artefactos en la definición del modelo o en el script de entrenamiento. Si los subdirectorios y los nombres de los archivos no están configurados correctamente, es posible que todos los trabajadores de entrenamiento distribuida escriban los resultados con el mismo nombre de archivo y en la misma ruta de salida en Amazon S3.

  • Si utiliza un contenedor de entrenamiento personalizado, asegúrese de instalar el Kit de Herramientas de entrenamiento de SageMaker, que le ayudará a configurar el entorno para los trabajos de entrenamiento de SageMaker. De lo contrario, debe especificar las variables de entorno de forma explícita en su Dockerfile. Para obtener más información, consulte Crear un contenedor con sus propios algoritmos y modelos.

  • Cuando se utiliza una instancia de ML con volúmenes NVMe SSD, SageMaker AI no aprovisiona el almacenamiento gp2 de Amazon EBS. El almacenamiento disponible se fija a la capacidad de almacenamiento de la instancia de tipo NVMe. SageMaker AI configura las rutas de almacenamiento para el entrenamiento de conjuntos de datos, puntos de control, artefactos de modelos y salidas a fin de utilizar toda la capacidad del almacenamiento de instancias. Por ejemplo, las familias de instancias de ML con almacenamiento de instancias de tipo NVMe incluyen ml.p4d, ml.g4dn y ml.g5. Cuando utilice una instancia de ML con la opción de almacenamiento exclusivo para EBS y sin almacenamiento de instancias, debe definir el tamaño del volumen de EBS mediante el volume_size parámetro de la clase de estimador de SageMaker AI (o VolumeSizeInGB si utiliza la API ResourceConfig). Por ejemplo, las familias de instancias de ML que utilizan volúmenes de EBS incluyen ml.c5 y ml.p2. Para buscar tipos de instancias y sus volúmenes y tipos de almacenamiento de instancias, consulte Tipos de instancias de Amazon EC2.

  • Las rutas predeterminadas para los trabajos de entrenamiento de SageMaker se montan en los volúmenes de Amazon EBS o en los volúmenes NVMe SSD de la instancia de ML. Cuando adapte el script de entrenamiento a SageMaker AI, asegúrese de utilizar las rutas predeterminadas que se muestran en el tema anterior Variables de entorno de SageMaker AI y las rutas predeterminadas para las ubicaciones de almacenamiento de entrenamiento. Le recomendamos que utilice el /tmp directorio como espacio para almacenar temporalmente cualquier objeto grande durante el entrenamiento. Esto significa que no debe utilizar directorios que estén montados en un espacio de disco pequeño asignado al sistema, como /user y /home, para evitar errores de falta de espacio.

Para obtener más información, consulte el AWS blog de machine learning Elija el mejor origen de datos para su trabajo de entrenamiento en Amazon SageMaker, que analiza más a fondo los casos prácticos y los puntos de referencia de rendimiento de las fuentes de datos y los modos de entrada.