Algoritmos integrados de SageMaker AI para datos tabulares

Amazon SageMaker AI proporciona algoritmos integrados y adaptados para el análisis de datos tabulares. Los datos tabulares son conjuntos de datos organizados en tablas compuestas por filas (observaciones) y columnas (características). Los algoritmos integrados de SageMaker AI para datos tabulares se pueden utilizar en problemas de clasificación o regresión.

AutoGluon-Tabular: un marco AutoML de código abierto que funciona ensamblando modelos y apilándolos en varias capas.
CatBoost: una implementación del algoritmo de árboles potenciados por gradientes, con una potenciación ordenada y un algoritmo innovador para procesar características categóricas.
Algoritmo de máquinas de factorización: una extensión de un modelo lineal que se ha diseñado para capturar de manera económica las interacciones entre características dentro de conjuntos de datos dispersos y de grandes dimensiones.
Algoritmo k vecinos más próximos (k-NN) (K-Nearest Neighbors): un método no paramétrico que utiliza los k puntos etiquetados más cercanos para asignarle una etiqueta a un nuevo punto de datos (para la clasificación), o un valor objetivo previsto a partir de la media de los k puntos más cercanos (para la regresión).
LightGBM: una implementación del algoritmo de árboles potenciados por gradiente que añade dos técnicas novedosas para mejorar la eficiencia y la escalabilidad; el muestreo unilateral basado en gradientes (GOSS) y la agrupación de características exclusivas (EFB).
Algoritmo de aprendizaje lineal: aprende una función lineal para la regresión o una función de umbral lineal para la clasificación.
TabTransformer: una novedosa arquitectura de modelado de datos tabulares profundos basada en transformadores con atención automática.
XGBoost algoritmo con Amazon SageMaker AI: una implementación del algoritmo de árboles con potenciación por gradiente que combina un conjunto de estimaciones a partir de un conjunto de modelos más simples y débiles.

Nombre de algoritmo	Nombre de canal	Modo de entrada de capacitación	Tipo de archivo	Clase de instancia	Paralelizable
AutoGluon-Tabular	Entrenamiento y validación (opcional)	Archivos	CSV	CPU o GPU (solo instancia única)	No
CatBoost	entrenamiento y validación (opcional)	Archivos	CSV	CPU (solo instancia única)	No
Máquinas de factorización	capacitación y prueba (opcional)	Archivo o canalización	recordIO-protobuf	CPU (GPU para datos densos)	Sí
K-Nearest-Neighbors (k-NN)	capacitación y prueba (opcional)	Archivo o canalización	recordIO-protobuf o CSV	CPU o GPU (dispositivo de GPU único en una o varias instancias)	Sí
LightGBM	entrenamiento y validación (opcional)	Archivos	CSV	CPU (solo instancia única)	No
Aprendiz lineal	capacitación y validación (opcional), prueba o ambos	Archivo o canalización	recordIO-protobuf o CSV	CPU o GPU	Sí
TabTransformer	entrenamiento y validación (opcional)	Archivos	CSV	CPU o GPU (solo instancia única)	No
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21)	capacitación y validación (opcional)	Archivo o canalización	CSV, LibSVM o Parquet	CPU (o GPU para 1.2-1)	Sí

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Registros

Algoritmo AutoGluon-Tabular