Algoritmos integrados de SageMaker AI para datos tabulares
Amazon SageMaker AI proporciona algoritmos integrados y adaptados para el análisis de datos tabulares. Los datos tabulares son conjuntos de datos organizados en tablas compuestas por filas (observaciones) y columnas (características). Los algoritmos integrados de SageMaker AI para datos tabulares se pueden utilizar en problemas de clasificación o regresión.
-
AutoGluon-Tabular: un marco AutoML de código abierto que funciona ensamblando modelos y apilándolos en varias capas.
-
CatBoost: una implementación del algoritmo de árboles potenciados por gradientes, con una potenciación ordenada y un algoritmo innovador para procesar características categóricas.
-
Algoritmo de máquinas de factorización: una extensión de un modelo lineal que se ha diseñado para capturar de manera económica las interacciones entre características dentro de conjuntos de datos dispersos y de grandes dimensiones.
-
Algoritmo k vecinos más próximos (k-NN) (K-Nearest Neighbors): un método no paramétrico que utiliza los k puntos etiquetados más cercanos para asignarle una etiqueta a un nuevo punto de datos (para la clasificación), o un valor objetivo previsto a partir de la media de los k puntos más cercanos (para la regresión).
-
LightGBM: una implementación del algoritmo de árboles potenciados por gradiente que añade dos técnicas novedosas para mejorar la eficiencia y la escalabilidad; el muestreo unilateral basado en gradientes (GOSS) y la agrupación de características exclusivas (EFB).
-
Algoritmo de aprendizaje lineal: aprende una función lineal para la regresión o una función de umbral lineal para la clasificación.
-
TabTransformer: una novedosa arquitectura de modelado de datos tabulares profundos basada en transformadores con atención automática.
-
Algoritmo XGBoost con Amazon SageMaker AI: una implementación del algoritmo de árboles con potenciación por gradiente que combina un conjunto de estimaciones a partir de un conjunto de modelos más simples y débiles.
| Nombre de algoritmo | Nombre de canal | Modo de entrada de capacitación | Tipo de archivo | Clase de instancia | Paralelizable |
|---|---|---|---|---|---|
| AutoGluon-Tabular | Entrenamiento y validación (opcional) | Archivos | CSV | CPU o GPU (solo instancia única) | No |
| CatBoost | entrenamiento y validación (opcional) | Archivos | CSV | CPU (solo instancia única) | No |
| Máquinas de factorización | capacitación y prueba (opcional) | Archivo o canalización | recordIO-protobuf | CPU (GPU para datos densos) | Sí |
| K-Nearest-Neighbors (k-NN) | capacitación y prueba (opcional) | Archivo o canalización | recordIO-protobuf o CSV | CPU o GPU (dispositivo de GPU único en una o varias instancias) | Sí |
| LightGBM | entrenamiento y validación (opcional) | Archivos | CSV | CPU (solo instancia única) | No |
| Aprendiz lineal | capacitación y validación (opcional), prueba o ambos | Archivo o canalización | recordIO-protobuf o CSV | CPU o GPU | Sí |
| TabTransformer | entrenamiento y validación (opcional) | Archivos | CSV | CPU o GPU (solo instancia única) | No |
| XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) | capacitación y validación (opcional) | Archivo o canalización | CSV, LibSVM o Parquet | CPU (o GPU para 1.2-1) | Sí |