Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Refinamiento de datos durante el entrenamiento con la selección inteligente de Amazon SageMaker
La selección inteligente de SageMaker es una capacidad del entrenamiento de SageMaker que ayuda a mejorar la eficiencia de los conjuntos de datos de entrenamiento y a reducir el tiempo y el costo totales del entrenamiento.
Los modelos de aprendizaje profundo modernos, como los modelos de lenguaje grandes (LLM) o los modelos de transformador de visión, suelen requerir conjuntos de datos masivos para lograr una exactitud aceptable. Por ejemplo, los LLM suelen requerir billones de fichas o petabytes de datos para converger. El tamaño creciente de los conjuntos de datos de entrenamiento, junto con el tamaño de los modelos más avanzados, pueden aumentar el tiempo de computación y el costo del entrenamiento de los modelos.
De manera invariable, las muestras de un conjunto de datos no contribuyen por igual al proceso de aprendizaje durante el entrenamiento del modelo. Una proporción importante de los recursos computacionales aprovisionados durante el entrenamiento podría dedicarse a procesar muestras sencillas que no contribuyen de manera considerable a la exactitud general de un modelo. Lo ideal sería que los conjuntos de datos de entrenamiento solo incluyeran muestras que realmente mejoren la convergencia del modelo. El filtrado de los datos menos útiles puede reducir el tiempo de entrenamiento y los costos de computación. Sin embargo, la identificación de los datos menos útiles puede resultar difícil y arriesgado. Es prácticamente difícil identificar qué ejemplos son menos informativos antes del entrenamiento, y la exactitud del modelo puede verse afectada si se excluyen ejemplos incorrectos o demasiados ejemplos.
La selección inteligente de datos con Amazon SageMaker AI puede ayudar a reducir el tiempo y los costos de entrenamiento al mejorar la eficiencia de los datos. El algoritmo de selección inteligente de SageMaker evalúa el valor de pérdida de cada dato durante la etapa de carga de datos de un trabajo de entrenamiento y excluye los ejemplos que son menos informativos para el modelo. Al utilizar datos refinados para el entrenamiento, se reducen el tiempo y el costo totales del entrenamiento del modelo, ya que se eliminan las transferencias innecesarias hacia adelante y hacia atrás de los datos que no mejoran. Por lo tanto, el impacto en la exactitud del modelo es mínimo o nulo.
La selección inteligente de SageMaker está disponible a través de los contenedores de aprendizaje profundo de entrenamiento de SageMaker (DLC) y admite cargas de trabajo de PyTorch a través de DataLoader de PyTorch. Solo se necesitan unas pocas líneas de código para implementar la selección inteligente de SageMaker y no es necesario cambiar los flujos de trabajo de entrenamiento o procesamiento de datos existentes.