Algorithmes intégrés et modèles préentraînés dans Amazon SageMaker - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Algorithmes intégrés et modèles préentraînés dans Amazon SageMaker

Amazon SageMaker fournit une suite d'algorithmes intégrés, de modèles préentraînés et de modèles de solutions prédéfinis pour aider les data scientists et les praticiens de l'apprentissage automatique à se lancer rapidement dans la formation et le déploiement de modèles d'apprentissage automatique. Pour quelqu'un qui est novice SageMaker, choisir le bon algorithme pour votre cas d'utilisation particulier peut s'avérer une tâche ardue. Le tableau suivant fournit un aide-mémoire rapide qui montre comment vous pouvez commencer par un exemple de problème ou de cas d'utilisation et trouver un algorithme intégré approprié et valide pour ce type de problème. SageMaker À la suite du tableau, vous trouverez des conseils supplémentaires organisés par paradigmes d'apprentissage (supervisé et non supervisé) et par domaines de données principaux (textes et images).

Tableau : mappage des cas d'utilisation aux algorithmes intégrés

Paradigme d'apprentissage ou domaine Types de problèmes Exemples de problèmes et de cas d'utilisation Format des données d'entrée Algorithmes intégrés
Modèles pré-entraînés et modèles de solutions préconçus

Classification d’images

Classification tabulaire

Régression tabulaire

Classification de texte

Object Detection

Intégration de texte

Réponse aux questions

Classification des paires de phrases

Intégration d'images

Reconnaissance d'entités nommées (NER)

Segmentation d'instances

Génération de texte

Synthèse de texte

Semantic Segmentation

Traduction automatique

Voici quelques exemples des 15 types de problèmes qui peuvent être résolus par les modèles préformés et les modèles de solutions prédéfinis fournis par Amazon : SageMaker JumpStart

Réponse aux questions : chatbot qui produit une réponse à une question donnée.

Analyse de texte : analyser des textes à partir de modèles spécifiques à un domaine industriel tel que la finance.

Image, texte, tableau

Modèles populaires, notamment Mobilenet, YOLO, Faster R-CNN, BERT, LightGBM et CatBoost

Pour une liste des modèles pré-entraînés disponibles, voir JumpStart Modèles.

Pour obtenir la liste des modèles de solutions prédéfinis disponibles, consultez la section JumpStart Solutions.

Apprentissage supervisé

Classification binaire/multi-classes

Prédire si un élément appartient à une catégorie : un filtre de courrier indésirable

Tabulaire

AutoGluon-Tabular, CatBoost, Algorithme des machines de factorisation, Algorithme k-NN (K-Nearest Neighbors, k plus proches voisins), LightGBM, Algorithme d'apprentissage linéaire, TabTransformer, XGBoost algorithme avec Amazon SageMaker AI

Régression

Prédire une numeric/continuous valeur : estimer la valeur d'une maison

Tabulaire

AutoGluon-Tabular, CatBoost, Algorithme des machines de factorisation, Algorithme k-NN (K-Nearest Neighbors, k plus proches voisins), LightGBM, Algorithme d'apprentissage linéaire, TabTransformer, XGBoost algorithme avec Amazon SageMaker AI

prédiction de séries temporelles

En se basant sur les données historiques d'un comportement, prédire le comportement futur : prédire les ventes sur un nouveau produit en fonction des données de ventes précédentes.

Tabulaire

Utilisation de l’algorithme de prévision DeepAR SageMaker AI

Intégrations : convertir des objets à haute dimension en espace à faible dimension.

Améliorer l'intégration des données des objets à haute dimension : identifier les tickets d'assistance en double ou trouver le routage approprié en fonction de la similitude du texte dans les tickets

Tabulaire Algorithme Object2Vec
Apprentissage non supervisé

Ingénierie des fonctionnalités : réduction de dimensionnalité

Supprimez les colonnes d'un jeu de données qui ont une faible relation avec la label/target variable : la couleur d'une voiture lors de la prévision de son kilométrage.

Tabulaire

Algorithme PCA (Principal Component Analysis, analyse en composantes principales)

Détection des anomalies

Détecter un comportement anormal dans l'application : repérer lorsqu'un capteur IoT envoie des lectures anormales

Tabulaire

Algorithme RCF (Random Cut Forest)

Détection des anomalies d'adresse IP

Protéger votre application des utilisateurs suspects : détecter si une adresse IP accédant à un service peut appartenir à une personne mal intentionnée

Tabulaire

IP Insights

Mise en cluster ou regroupement

objects/data Regroupez les produits similaires : identifiez les clients qui dépensent beaucoup, à moyen ou à faible montant à partir de l'historique de leurs transactions

Tabulaire

Algorithme des k-moyennes (k-means)

Modélisation des rubriques

Organiser un ensemble de documents en rubriques (non connus à l'avance) : marquer un document comme appartenant à une catégorie médicale en fonction des termes utilisés dans le document.

Texte

Algorithme LDA (Latent Dirichlet Allocation, allocation de Dirichlet latente), Algorithme NTM (Neural Topic Model)

Analyse de texte

Classification de texte

Affecter des catégories prédéfinies aux documents d'un corpus : classer les livres d'une bibliothèque en disciplines universitaires

Texte

Algorithme BlazingText, Classification textuelle : TensorFlow

Algorithme de traduction

automatique

Convertir du texte d'une langue à une autre : Espagnol en Anglais

Texte

Algorithme seq2seq (Sequence-to-Sequence)

Synthèse de texte

Résumer un corpus de texte long : un résumé pour un document de recherche

Texte

Algorithme seq2seq (Sequence-to-Sequence)

S peech-to-text

Convertir des fichiers audio en texte : transcrire les conversations du centre d'appels pour une analyse plus approfondie

Texte

Algorithme seq2seq (Sequence-to-Sequence)

Traitement graphique

Classification des images et des étiquettes multiples

Étiqueter une image en fonction du contenu de l'image : alertes de contenu pour adultes dans une image

Image

Classification des images – MXNet

Classification d’images

Classez quelque chose dans une image à l'aide de l'apprentissage par transfert.

Image

Classification des images : TensorFlow

Détection et classification d'objets

Détecter les personnes et les objets dans une image : la police examine une grande galerie de photos pour une personne disparue

Image

Détection d'objets : MXNet, Détection d'objets : TensorFlow

Reconnaissance d’image

Étiqueter chaque pixel d'une image avec une catégorie : les voitures autonomes se préparent à identifier les objets sur leur chemin

Image

Algorithme de segmentation sémantique

Pour obtenir des informations importantes sur les éléments suivants communs à tous les algorithmes intégrés fournis par l' SageMaker IA, consultezParamètres des algorithmes intégrés.

  • chemins de registre Docker

  • formats de données

  • types d' EC2 instances Amazon recommandés

  • CloudWatch journaux

Les sections suivantes fournissent des conseils supplémentaires pour les algorithmes intégrés d'Amazon SageMaker AI regroupés en fonction des paradigmes d'apprentissage supervisé et non supervisé auxquels ils appartiennent. Pour obtenir une description de ces paradigmes d'apprentissage et de leurs types de problèmes associés, consultez Types d’algorithmes. Des sections sont également fournies pour les algorithmes intégrés à l' SageMaker IA disponibles pour traiter deux domaines importants de l'apprentissage automatique : l'analyse textuelle et le traitement d'images.

Modèles pré-entraînés et modèles de solutions

Amazon SageMaker JumpStart propose une large gamme de modèles préformés, de modèles de solutions prédéfinis et d'exemples de types de problèmes courants. Ils utilisent le SageMaker SDK ainsi que Studio Classic. Pour plus d'informations sur ces modèles, ces solutions et les exemples de blocs-notes fournis par Amazon SageMaker JumpStart, consultezSageMaker JumpStart modèles préentraînés.

Apprentissage supervisé

Amazon SageMaker AI fournit plusieurs algorithmes intégrés à usage général qui peuvent être utilisés pour des problèmes de classification ou de régression.

  • AutoGluon-Tabular : un cadre AutoML open source qui réussit en assemblant des modèles et en les empilant en plusieurs couches.

  • CatBoost : une implémentation de l'algorithme d'arborescences de gradients améliorés qui introduit l'amplification ordonnée et un algorithme innovant pour le traitement des fonctionnalités de catégories.

  • Algorithme des machines de factorisation : extension d'un modèle linéaire, conçue pour capturer, de façon économique, les interactions entre les fonctions dans des jeux de données fragmentés à haute dimension.

  • Algorithme k-NN (K-Nearest Neighbors, k plus proches voisins) : une méthode non paramétrique qui utilise les k points étiquetés les plus proches pour attribuer une valeur. Pour la classification, il s’agit d’une étiquette indiquant un nouveau point de données. Pour la régression, il s’agit d’une valeur cible prédite à partir de la moyenne des k points les plus proches.

  • LightGBM : une implémentation de l’algorithme d’arborescences de gradients améliorés qui ajoute deux nouvelles techniques pour améliorer l’efficacité et la capacité de mise à l’échelle. Ces deux nouvelles techniques sont l’échantillonnage unilatéral basé sur le gradient (GOSS) et la création d’une offre groupée exclusive de caractéristiques (EFB).

  • Algorithme d'apprentissage linéaire : apprend une fonction linéaire pour la régression ou une fonction de seuil linéaire pour la classification.

  • TabTransformer: une nouvelle architecture de modélisation des données tabulaires approfondies basée sur self-attention-based Transformers.

  • XGBoost algorithme avec Amazon SageMaker AI : implémentation de l'algorithme d'arborescences de gradients améliorés qui combine un ensemble d'estimations d'un jeu de modèles plus simples et plus faibles.

Amazon SageMaker AI fournit également plusieurs algorithmes d'apprentissage supervisé intégrés utilisés pour des tâches plus spécialisées lors de l'ingénierie des fonctionnalités et des prévisions à partir de données de séries chronologiques.

  • Algorithme Object2Vec : nouvel algorithme polyvalent hautement personnalisable utilisé pour l'ingénierie des fonctionnalités. Il peut apprendre des intégrations denses à faible dimension d'objets à haute dimension pour produire des fonctions qui améliorent l'efficacité d'entraînement pour les modèles en aval. Bien qu’il s’agisse d’un algorithme supervisé, il existe de nombreux scénarios dans lesquels les étiquettes de relation peuvent être obtenues uniquement à partir de clusters naturels dans les données. Même si l’entraînement nécessite des données étiquetées, cela peut se produire sans aucune annotation humaine explicite.

  • Utilisation de l’algorithme de prévision DeepAR SageMaker AI : algorithme d'apprentissage supervisé pour les prédictions de séries temporelles scalaires (unidimensionnelles) à l'aide de réseaux neuronaux récurrents (RNN).

Apprentissage non supervisé

Amazon SageMaker AI fournit plusieurs algorithmes intégrés qui peuvent être utilisés pour diverses tâches d'apprentissage non supervisées. Ces tâches incluent la mise en cluster, la réduction de dimensions, la reconnaissance des formes et la détection d’anomalies.

  • Algorithme PCA (Principal Component Analysis, analyse en composantes principales) : réduit la dimensionnalité (nombre de fonctions) au sein d'un jeu de données en projetant des points de données sur les premiers composants principaux. L'objectif est de conserver autant d'informations ou de variations que possible. Pour les mathématiciens, les composants principaux sont les vecteurs propres de la matrice de covariance des données.

  • Algorithme des k-moyennes (k-means): identifie les groupes distincts au sein des données. Cela se produit lorsque les membres d’un groupe sont aussi similaires que possible entre eux, et aussi différents que possible des membres des autres groupes.

  • IP Insights—apprend les modèles d'utilisation des IPv4 adresses. Il est conçu pour capturer les associations entre les IPv4 adresses et diverses entités, telles que les numéros d'utilisateur IDs ou de compte.

  • Algorithme RCF (Random Cut Forest) : détecte les points de données anormaux d'un jeu de données qui s'écartent de données autrement bien structurées ou calquées.

Analyse de texte

SageMaker L'IA fournit des algorithmes adaptés à l'analyse de documents textuels. Ceci comprend le texte utilisé dans le traitement du langage naturel, la classification ou la synthèse de documents, la modélisation ou la classification des rubriques, ainsi que la transcription ou la traduction des langues.

  • Algorithme BlazingText : implémentation hautement optimisée des algorithmes de classification textuelle et Word2vec qui s'adaptent facilement à de grands jeux de données. Elle est utile pour de nombreuses tâches de traitement du langage naturel (NLP).

  • Algorithme seq2seq (Sequence-to-Sequence) : algorithme supervisé couramment utilisé pour la traduction automatique neuronale.

  • Algorithme LDA (Latent Dirichlet Allocation, allocation de Dirichlet latente) : algorithme utile pour déterminer les rubriques d'un ensemble de documents. Il s'agit d'un algorithme non supervisé, ce qui signifie qu'il n'utilise pas d'exemples de données avec des réponses au cours de l'entraînement.

  • Algorithme NTM (Neural Topic Model) : autre technique non supervisée permettant de déterminer les rubriques d'un ensemble de documents, à l'aide d'une approche réseau neuronale.

  • Classification textuelle : TensorFlow : algorithme supervisé qui prend en charge l'apprentissage par transfert grâce à des modèles pré-entraînés disponibles pour la classification textuelle.

Traitement graphique

SageMaker L'IA fournit également des algorithmes de traitement d'image utilisés pour la classification des images, la détection d'objets et la vision par ordinateur.

  • Classification des images – MXNet : a recours à des exemples de données avec des réponses (ce qu'on appelle un algorithme supervisé).   Utilisez cet algorithme pour classer des images.

  • Classification des images : TensorFlow—utilise des modèles TensorFlow Hub préentraînés pour affiner des tâches spécifiques (ce que l'on appelle un algorithme supervisé).   Utilisez cet algorithme pour classer des images.

  • Algorithme de segmentation sémantique : fournit une approche granulaire, au niveau du pixel, pour développer les applications de reconnaissance d'image.

  • Détection d'objets : MXNet : détecte et classe les objets des images à l'aide d'un seul réseau neuronal profond. Il s'agit d'un algorithme d'apprentissage supervisé qui accepte les images en tant qu'entrée et identifie toutes les instances d'objets au sein de l'image.

  • Détection d'objets : TensorFlow : détecte les cadres de délimitation et les étiquettes d'objets dans une image. Il s'agit d'un algorithme d'apprentissage supervisé qui prend en charge l'apprentissage par transfert avec les TensorFlow modèles préentraînés disponibles.