Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Información de IP
Amazon SageMaker AI IP Insights es un algoritmo de aprendizaje no supervisado que aprende los patrones de uso de direcciones IPv4. Está diseñado para capturar asociaciones entre las direcciones IPv4 y diversas entidades, como ID de usuario o números de cuenta. Puede utilizarlo para identificar a un usuario que intenta iniciar sesión en un servicio web desde una dirección IP anómala, por ejemplo. O bien, puede utilizarlo para identificar una cuenta que está intentando crear recursos informáticos desde una dirección IP inusual. Los modelos de información IP entrenados se pueden alojar en un punto de enlace para realizar predicciones en tiempo real o se pueden utilizar para procesar transformaciones por lotes.
SageMaker AI IP incorpora datos históricos como pares (entidad, dirección IPv4) y aprende los patrones de uso IP de cada entidad. Cuando se consulta con un evento (entidad, IPv4, Dirección), un modelo de SageMaker AI IP Insights devuelve una puntuación que determina el grado de anomalía del patrón del evento. Por ejemplo, cuando un usuario intenta iniciar sesión desde una dirección IP, si la puntuación de Información IP es lo suficientemente alta, un servidor de inicio de sesión web podría decidir activar un sistema de Multi-Factor Authentication. En las soluciones más avanzadas, puede enviar la puntuación de Información IP a otro modelo de machine learning. Por ejemplo, puede combinar la puntuación de Información IP con otras características para clasificar los resultados de otro sistema de seguridad, como los de Amazon GuardDuty.
El algoritmo SageMaker AI IP Insights también puede aprender representaciones vectoriales de direcciones IP, lo que se conoce como incrustaciones. Puede utilizar incrustaciones con codificación del vector como características en tareas de machine learning posteriores que usan la información observada en las direcciones IP. Por ejemplo, puede utilizarlas en tareas como medir similitudes entre las direcciones IP en tareas de clustering y visualización.
Temas
Interfaz de entrada/salida para el algoritmo Información IP
Entrenamiento y validación
El algoritmo de SageMaker AI IP Insights admite los canales de datos de entrenamiento y validación. Utiliza la el canal de validación para calcular un resultado de área bajo curva (AUC) en una estrategia de muestreo negativo predefinida. La métrica AUC valida la eficacia del modelo para discriminar entre muestras positivas y negativas. Los tipos de contenido de datos de capacitación y validación tienen que estar en formato text/csv. La primera columna de los datos CSV es una cadena opaca que proporciona un identificador único para la entidad. La segunda columna es una dirección IPv4 en formato decimal con punto. Información IP actualmente solo admite el modo de Archivo. Para obtener más información y ejemplos, consulte Formatos de datos de capacitación de Información IP.
Inferencia
Para inferencia, Información IP admite los tipos de contenido de datos text/csv, application/json y application/jsonlines. Para obtener más información acerca de los formatos de datos comunes para inferencia que proporciona SageMaker AI, consulte Formatos de datos comunes para la inferencia. La inferencia de Información IP devuelve un resultado con formato application/json o application/jsonlines. Cada uno de los registros de los datos de salida contienen las correspondientes dot_product (o puntuación de compatibilidad) para cada punto de datos de entrada. Para obtener más información y ejemplos, consulte Formatos de datos de inferencia de Información IP.
Recomendación de instancia EC2 para el algoritmo de Información IP
El algoritmo SageMaker AI IP Insights se puede ejecutar en las instancias de GPU y de CPU. Para trabajos de capacitación, le recomendamos que utilice las instancias de GPU. Sin embargo, para determinadas cargas de trabajo con grandes conjuntos de datos de capacitación, las instancias de CPU distribuidas podrían reducir los costos de capacitación. Se recomiendan las instancias de CPU para inferencia. IP Insights es compatible con las familias de GPU P2, P3, G4dn y G5.
Instancias GPU para el algoritmo de Información IP
Información IP admite todas las GPUs disponibles. Si necesita acelerar la capacitación, le recomendamos que comience con una sola instancia de GPU, como ml.p3.2xlarge y, a continuación, cambiar a un entorno multi-GPU, como ml.p3.8xlarge y ml.p3.16xlarge. Multi-GPUs dividen automáticamente los mini lotes de datos de capacitación entre sí mismos. Si cambia de una única GPU a varias GPU, mini_batch_size se divide por igual entre el número de GPU utilizadas. Es posible que desee aumentar el valor del mini_batch_size para compensarlo.
Instancias CPU para el algoritmo Información IP
El tipo de instancia de CPU que le recomendamos depende en gran medida de la memoria disponible de la instancia y el tamaño del modelo. El tamaño del modelo se determina en función de dos hiperparámetros: vector_dim y num_entity_vectors. El tamaño de modelo máximo soportado es 8 GB. En la siguiente tabla se muestran los tipos de instancias EC2 típicos que implementaría en función de estos parámetros de entrada para distintos tamaños de modelo. En la tabla 1, el valor de vector_dim en la primera columna va desde 32 hasta 2048 y los valores de num_entity_vectors en la primera fila, de 10 000 a 50 000 000.
vector_dim \
num_entity_vectors. |
10 000 | 50 000 | 100 000 | 500.000 | 1 000 000 | 5,000,000 | 10 000 000 | 50,000,000 |
|---|---|---|---|---|---|---|---|---|
32 |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.2xlarge |
|
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
||
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
|||
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
|||
|
|
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.xlarge |
Los valores de los hiperparámetros mini_batch_size, num_ip_encoder_layers, random_negative_sampling_rate y shuffled_negative_sampling_rate afectan a la cantidad de memoria necesaria. Si estos valores son altos, es posible que necesite utilizar un tipo de instancia mayor de lo habitual.
Cuadernos de ejemplo de Información IP
Si desea ver un cuaderno de muestra y descubrir cómo entrenar al algoritmo SageMaker AI IP Insights y cómo hacer inferencias con él, consulte An Introduction to the SageMaker AI IP Insights Algorithm