Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d’un flux de données
Utilisez un flux Data Wrangler dans SageMaker Canvas, ou flux de données, pour créer et modifier un pipeline de préparation des données. Nous vous recommandons d’utiliser Data Wrangler pour les jeux de données supérieurs à 5 Go.
Pour commencer, suivez la procédure ci-dessous pour importer vos données dans un flux de données.
-
Ouvrez SageMaker Canvas.
-
Dans le volet de navigation de gauche, choisissez Data Wrangler.
-
Choisissez Importer et préparer.
-
Dans le menu déroulant, choisissez Tabulaire ou Image.
-
Pour Sélectionner une source de données, choisissez votre source de données et sélectionnez les données que vous souhaitez importer. Vous avez la possibilité de sélectionner jusqu’à 30 fichiers ou un dossier. Si vous avez déjà importé un jeu de données dans Canvas, choisissez Jeu de données Canvas comme source. Sinon, connectez-vous à une source de données telle qu’Amazon S3 ou Snowflake et parcourez vos données. Pour en savoir plus sur la connexion à une source de données ou l’importation de données, consultez les pages suivantes :
-
Après avoir sélectionné les données que vous souhaitez importer, choisissez Suivant.
-
(Facultatif) Pour la section Paramètres d’importation lors de l’importation d’un jeu de données tabulaire, développez le menu déroulant Avancé. Vous pouvez spécifier les paramètres avancés suivants pour les importations de flux de données :
Méthode d’échantillonnage : sélectionnez la méthode d’échantillonnage et la taille de l’échantillon que vous souhaitez utiliser. Pour plus d’informations sur la façon de modifier votre échantillon, consultez la section Modification de la configuration d’échantillonnage du flux de données.
Encodage de fichier (CSV) : sélectionnez l’encodage du fichier de votre jeu de données.
UTF-8est la valeur par défaut.Ignorer les premières lignes : entrez le nombre de lignes que vous souhaitez ignorer d’importer si vous avez des lignes redondantes au début de votre jeu de données.
Délimiteur : sélectionnez le délimiteur qui sépare chaque élément dans vos données. Vous pouvez également spécifier un délimiteur personnalisé.
Détection multiligne : sélectionnez cette option si vous souhaitez que Canvas analyse manuellement l’intégralité de votre jeu de données pour détecter les cellules multilignes. Canvas détermine s’il convient ou non d’utiliser le support multiligne en prélevant un échantillon de vos données, mais Canvas risque de ne détecter aucune cellule multiligne dans l’échantillon. Dans ce cas, nous vous recommandons de sélectionner l’option Détection multiligne pour forcer Canvas à vérifier la présence de cellules multilignes dans l’intégralité de votre jeu de données.
-
Choisissez Importer.
Vous devriez maintenant disposer d’un nouveau flux de données, et vous pouvez commencer à ajouter des étapes de transformation et des analyses.