Algoritmos integrados de SageMaker AI para datos tabulares - Amazon SageMaker AI

Algoritmos integrados de SageMaker AI para datos tabulares

Amazon SageMaker AI proporciona algoritmos integrados y adaptados para el análisis de datos tabulares. Los datos tabulares son conjuntos de datos organizados en tablas compuestas por filas (observaciones) y columnas (características). Los algoritmos integrados de SageMaker AI para datos tabulares se pueden utilizar en problemas de clasificación o regresión.

  • AutoGluon-Tabular: un marco AutoML de código abierto que funciona ensamblando modelos y apilándolos en varias capas.

  • CatBoost: una implementación del algoritmo de árboles potenciados por gradientes, con una potenciación ordenada y un algoritmo innovador para procesar características categóricas.

  • Algoritmo de máquinas de factorización: una extensión de un modelo lineal que se ha diseñado para capturar de manera económica las interacciones entre características dentro de conjuntos de datos dispersos y de grandes dimensiones.

  • Algoritmo k vecinos más próximos (k-NN) (K-Nearest Neighbors): un método no paramétrico que utiliza los k puntos etiquetados más cercanos para asignarle una etiqueta a un nuevo punto de datos (para la clasificación), o un valor objetivo previsto a partir de la media de los k puntos más cercanos (para la regresión).

  • LightGBM: una implementación del algoritmo de árboles potenciados por gradiente que añade dos técnicas novedosas para mejorar la eficiencia y la escalabilidad; el muestreo unilateral basado en gradientes (GOSS) y la agrupación de características exclusivas (EFB).

  • Algoritmo de aprendizaje lineal: aprende una función lineal para la regresión o una función de umbral lineal para la clasificación.

  • TabTransformer: una novedosa arquitectura de modelado de datos tabulares profundos basada en transformadores con atención automática.

  • Algoritmo XGBoost con Amazon SageMaker AI: una implementación del algoritmo de árboles con potenciación por gradiente que combina un conjunto de estimaciones a partir de un conjunto de modelos más simples y débiles.

Nombre de algoritmo Nombre de canal Modo de entrada de capacitación Tipo de archivo Clase de instancia Paralelizable
AutoGluon-Tabular Entrenamiento y validación (opcional) Archivos CSV CPU o GPU (solo instancia única) No
CatBoost entrenamiento y validación (opcional) Archivos CSV CPU (solo instancia única) No
Máquinas de factorización capacitación y prueba (opcional) Archivo o canalización recordIO-protobuf CPU (GPU para datos densos)
K-Nearest-Neighbors (k-NN) capacitación y prueba (opcional) Archivo o canalización recordIO-protobuf o CSV CPU o GPU (dispositivo de GPU único en una o varias instancias)
LightGBM entrenamiento y validación (opcional) Archivos CSV CPU (solo instancia única) No
Aprendiz lineal capacitación y validación (opcional), prueba o ambos Archivo o canalización recordIO-protobuf o CSV CPU o GPU
TabTransformer entrenamiento y validación (opcional) Archivos CSV CPU o GPU (solo instancia única) No
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) capacitación y validación (opcional) Archivo o canalización CSV, LibSVM o Parquet CPU (o GPU para 1.2-1)