Modification de la configuration d’échantillonnage du flux de données
Lorsque vous importez des données tabulaires dans un flux de données Data Wrangler, vous pouvez choisir de prélever un échantillon de votre jeu de données afin d’accélérer le processus d’exploration et de nettoyage des données. L’exécution de transformations exploratoires sur un échantillon de votre jeu de données est souvent plus rapide que l’exécution de transformations sur l’intégralité de votre jeu de données, et lorsque vous êtes prêt à exporter votre jeu de données et à générer un modèle, vous pouvez appliquer les transformations au jeu de données complet.
Canvas prend en charge les méthodes d’échantillonnage suivantes :
Premiers k : Canvas sélectionne les k premiers éléments de votre jeu de données, où k est un nombre que vous spécifiez. Cette méthode d’échantillonnage est simple mais peut introduire un biais si votre jeu de données n’est pas ordonné de manière aléatoire.
Aléatoire : Canvas sélectionne au hasard des éléments du jeu de données, chaque élément ayant une probabilité égale d’être choisi. Cette méthode d’échantillonnage permet de garantir que l’échantillon est représentatif du jeu de données dans son intégralité.
Stratifié : Canvas divise le jeu de données en groupes (ou strates) en fonction d’un ou de plusieurs attributs (par exemple, l’âge et le niveau de revenu). Ensuite, un nombre proportionnel d’éléments est sélectionné au hasard dans chaque groupe. Cette méthode garantit que tous les sous-groupes concernés sont correctement représentés dans l’échantillon.
Vous pouvez modifier votre configuration d’échantillonnage à tout moment pour modifier la taille de l’échantillon utilisé pour l’exploration des données.
Pour modifier votre configuration d’échantillonnage, procédez comme suit :
Dans votre graphique de flux de données, sélectionnez le nœud de votre source de données.
Choisissez Échantillonnage dans la barre de navigation inférieure.
La boîte de dialogue Échantillonnage s’ouvre. Dans la liste déroulante Méthode d’échantillonnage, sélectionnez la méthode d’échantillonnage que vous souhaitez.
Dans Taille d’échantillon maximale, entrez le nombre de lignes que vous souhaitez échantillonner.
Choisissez Mettre à jour pour enregistrer vos modifications.
Les modifications apportées à votre configuration d’échantillonnage doivent maintenant être appliquées.