Affinage des données pendant l’entraînement grâce à l’analyse intelligente Amazon SageMaker - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Affinage des données pendant l’entraînement grâce à l’analyse intelligente Amazon SageMaker

L’analyse intelligente SageMaker est une fonctionnalité de l’entraînement SageMaker qui permet d’améliorer l’efficacité de vos jeux de données d’entraînement et de réduire le temps et les coûts totaux d’entraînement.

Les modèles de deep learning modernes tels que les grands modèles de langage (LLM) ou les modèles de transformeur de vision nécessitent souvent des jeux de données volumineux pour atteindre une précision acceptable. Par exemple, les LLM ont souvent besoin de milliards de jetons ou de pétaoctets de données pour converger. La taille croissante des jeux de données d’entraînement, associée à la taille des modèles de pointe, peut augmenter le temps de calcul et le coût de l’entraînement des modèles.

Invariablement, les exemples d’un jeu de données ne contribuent pas de la même manière au processus d’apprentissage lors de l’entraînement des modèles. Une part importante des ressources informatiques allouées pendant l’entraînement peut être consacrée au traitement d’exemples simples qui ne contribuent pas de manière significative à l’exactitude globale d’un modèle. Idéalement, les jeux de données d’entraînement n’incluraient que des exemples qui améliorent réellement la convergence des modèles. Le filtrage des données moins utiles peut réduire le temps d’entraînement et les coûts de calcul. Cependant, l’identification de données moins utiles peut s’avérer difficile et risquée. Il est difficile d’identifier les exemples les moins informatifs avant l’entraînement et l’exactitude du modèle peut être affectée si les mauvais exemples ou un trop grand nombre d’exemples sont exclus.

L’analyse intelligente des données avec Amazon SageMaker AI peut contribuer à réduire le temps et les coûts d’entraînement en améliorant l’efficacité des données. L’algorithme d’analyse intelligente SageMaker évalue la valeur de perte de chaque donnée pendant la phase de chargement des données d’une tâche d’entraînement et exclut les exemples moins informatifs pour le modèle. En utilisant des données raffinées pour l’entraînement, le temps et le coût totaux de l’entraînement de votre modèle sont réduits en éliminant les transmissions avant et arrière inutiles sur des données qui ne s’améliorent pas. Par conséquent, l’impact sur l’exactitude du modèle est minime ou nul.

L’analyse intelligente SageMaker est disponible via les conteneurs de deep learning de l’entraînement SageMaker et prend en charge les charges de travail PyTorch via le DataLoader de PyTorch. Quelques lignes de code seulement sont nécessaires pour implémenter l’analyse intelligente SageMaker et vous n’avez pas besoin de modifier vos flux de travail d’entraînement ou de traitement des données existants.