Datenverfeinerung während des Trainings mit Amazon SageMaker Smart Sifting - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenverfeinerung während des Trainings mit Amazon SageMaker Smart Sifting

SageMaker Smart Sifting ist eine Funktion von SageMaker Training, die dazu beiträgt, die Effizienz Ihrer Trainingsdatensätze zu verbessern und die Gesamtzeit und -kosten des Trainings zu reduzieren.

Moderne Deep-Learning-Modelle wie große Sprachmodelle (LLMs) oder Vision-Transformer-Modelle erfordern oft riesige Datensätze, um eine akzeptable Genauigkeit zu erreichen. Zum Beispiel benötigen LLMs oft Billionen von Token oder Petabyte an Daten, um zu konvergieren. Die wachsende Größe von Trainingsdatensätzen kann zusammen mit der Größe modernster Modelle die Rechenzeit und die Kosten für das Modelltraining erhöhen.

Stichproben in einem Datensatz tragen nicht gleichermaßen zum Lernprozess beim Modelltraining bei. Ein erheblicher Teil der während des Trainings bereitgestellten Rechenressourcen könnte für die Verarbeitung einfacher Stichproben aufgewendet werden, die nicht wesentlich zur Gesamtgenauigkeit eines Modells beitragen. Idealerweise würden Trainingsdatensätze nur Stichproben enthalten, die die Modellkonvergenz tatsächlich verbessern. Das Herausfiltern weniger hilfreicher Daten kann die Trainingszeit und die Rechenkosten reduzieren. Die Identifizierung weniger hilfreicher Daten kann jedoch schwierig und riskant sein. Es ist schwierig, vor dem Training festzustellen, welche Proben weniger aussagekräftig sind, und die Modellgenauigkeit kann beeinträchtigt werden, wenn die falschen Proben oder zu viele Proben ausgeschlossen werden.

Das intelligente Sichten von Daten mit Amazon SageMaker AI kann dazu beitragen, die Trainingszeit und -kosten zu reduzieren, indem die Dateneffizienz verbessert wird. Der intelligente Sichtungsalgorithmus von SageMaker bewertet den Verlustwert der einzelnen Daten während der Datenladephase eines Trainingsjobs und schließt Stichproben aus, die für das Modell weniger aussagekräftig sind. Durch die Verwendung verfeinerter Daten für das Training werden die Gesamtzeit und die Kosten für das Training Ihres Modells reduziert, da unnötige Vorwärts- und Rückwärtsdurchläufe von Daten, die zu keinen Verbesserungen führen, vermieden werden. Dies hat daher nur minimale oder keine Auswirkungen auf die Genauigkeit des Modells.

SageMaker Smart Sifting ist über Deep-Learning-Container (DLCs) von SageMaker für das Training verfügbar und unterstützt PyTorch-Workloads über den PyTorch DataLoader. Für die Implementierung von SageMaker Smart Sifting ist nur die Änderung weniger Codezeilen erforderlich und Sie müssen Ihre bestehenden Trainings- oder Datenverarbeitungsworkflows nicht ändern.