Bearbeiten der Konfiguration der Datenflussstichprobe - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bearbeiten der Konfiguration der Datenflussstichprobe

Beim Importieren von Tabellendaten in einen Data Wrangler-Datenfluss können Sie sich dafür entscheiden, eine Stichprobe Ihres Datensatzes zu nehmen, um die Datenexploration und -bereinigung zu beschleunigen. Die Ausführung von explorativen Transformationen an einer Stichprobe Ihres Datensatzes ist häufig schneller als die Ausführung von Transformationen am gesamten Datensatz. Wenn Sie bereit sind, Ihren Datensatz zu exportieren und ein Modell zu erstellen, können Sie die Transformationen auf den vollständigen Datensatz anwenden.

Canvas unterstützt die folgenden Sampling-Methoden:

  • FirstK – Canvas wählt die ersten K Elemente aus Ihrem Datensatz aus, wobei K eine von Ihnen angegebene Zahl ist. Diese Sampling-Methode ist einfach, kann jedoch zu Verzerrungen führen, wenn Ihr Datensatz nicht zufällig angeordnet ist.

  • Zufällig – Canvas wählt Elemente aus dem Datensatz nach dem Zufallsprinzip aus, wobei für jedes Element die gleiche Wahrscheinlichkeit besteht, ausgewählt zu werden. Diese Sampling-Methode trägt dazu bei, dass die Stichprobe für den gesamten Datensatz repräsentativ ist.

  • Stratifiziert – Canvas unterteilt den Datensatz anhand eines oder mehrerer Attribute (z. B. Alter und Einkommensniveau) in Gruppen (oder Schichten). Anschließend wird eine proportionale Anzahl von Elementen nach dem Zufallsprinzip aus jeder Gruppe ausgewählt. Diese Methode stellt sicher, dass alle relevanten Untergruppen in der Stichprobe angemessen vertreten sind.

Sie können Ihre Sampling-Konfiguration jederzeit bearbeiten, um die Größe der für die Datenexploration verwendeten Stichprobe zu ändern.

Um Änderungen an Ihrer Sampling-Konfiguration vorzunehmen, gehen Sie wie folgt vor:

  1. Wählen Sie in Ihrem Datenflussdiagramm Ihren Datenquellenknoten aus.

  2. Wählen Sie in der unteren Navigationsleiste Sampling aus.

  3. Das Dialogfeld Sampling wird geöffnet. Wählen Sie in der Dropdown-Liste Sampling-Methode die gewünschte Sampling-Methode aus.

  4. Geben Sie unter Maximaler Stichprobenumfang die Anzahl der Zeilen ein, für die Sie eine Stichprobe erstellen möchten.

  5. Wählen Sie Aktualisieren aus, um Ihre Änderungen zu speichern.

Die Änderungen an Ihrer Sampling-Konfiguration sollten jetzt übernommen werden.