Perfezionamento dei dati durante l’addestramento con Amazon SageMaker Smart Sifting - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Perfezionamento dei dati durante l’addestramento con Amazon SageMaker Smart Sifting

SageMaker Smart Sifting è una funzionalità di SageMaker Training che contribuisce a migliorare l’efficienza dei set di dati di addestramento e ridurre i tempi e i costi totali di addestramento.

I moderni modelli di deep learning, come i modelli linguistici di grandi dimensioni (LLM) o i modelli Vision Transformer, richiedono spesso enormi set di dati per raggiungere una precisione accettabile. Ad esempio, gli LLM richiedono spesso trilioni di token o petabyte di dati per la convergenza. Le dimensioni crescenti dei set di dati di addestramento, insieme alle dimensioni di modelli all’avanguardia, possono aumentare i tempi di calcolo e i costi di addestramento dei modelli.

Invariabilmente, i campioni in un set di dati non contribuiscono in modo uguale al processo di apprendimento durante l’addestramento dei modelli. Una parte significativa delle risorse di calcolo fornite durante l’addestramento potrebbe essere impiegata per l’elaborazione di campioni semplici che non contribuiscono in modo sostanziale alla precisione complessiva di un modello. Idealmente, i set di dati di addestramento dovrebbero includere solo campioni che migliorano effettivamente la convergenza di un modello. Il filtraggio dei dati meno utili può ridurre i tempi di addestramento e i costi di calcolo. Tuttavia, identificare i dati meno utili può essere difficile e rischioso. È difficile a livello pratico identificare quali campioni siano meno informativi prima dell’addestramento e la precisione di un modello può risentirne se vengono esclusi i campioni sbagliati o un numero eccessivo di campioni.

Questa funzionalità di smart sifting dei dati con Amazon SageMaker AI può aiutare a ridurre tempi e costi di addestramento, migliorando l’efficienza dei dati. L’algoritmo di SageMaker Smart Sifting valuta il valore di perdita di tutti i dati durante la fase di caricamento di un job di addestramento ed esclude i campioni meno informativi per il modello. Utilizzando dati perfezionati per l’addestramento, si riducono i tempi e i costi totali dell’addestramento dei modelli, eliminando inutili passaggi avanti e indietro su dati non migliorativi. Pertanto, l’impatto sulla precisione del modello è minimo o nullo.

SageMaker Smart Sifting è disponibile tramite i container per il Deep Learning di SageMaker Training e supporta i carichi di lavoro PyTorch tramite PyTorch DataLoader. Sono sufficienti solo poche righe di modifica del codice per implementare SageMaker Smart Sifting e non è necessario modificare i flussi di lavoro di addestramento o elaborazione dei dati esistenti.