Fonctionnement de la classification d'images - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Fonctionnement de la classification d'images

L'algorithme de classification d'images prend une image en entrée et la classe dans une des catégories de sortie. Le deep learning a révolutionné le domaine de la classification d'images et a obtenu des performances élevées. Divers réseaux de deep learning tels que ResNet, DenseNet, Inception, etc., ont été développés afin d'apporter une grande précision dans la classification d'image. Dans le même temps, des efforts ont été faits pour collecter des données d'image étiquetées, essentielles à l'entraînement de ces réseaux. ImageNet est un exemple de ces jeux de données et compte plus de 11 millions d'images et environ 11 000 catégories. Une fois qu'un réseau est entraîné avec des données ImageNet, il peut être utilisé pour une généralisation avec d'autres jeux de données au moyen d'un simple réajustement ou réglage. Selon cette approche d'apprentissage par transfert, un réseau est initialisé avec des pondérations (dans cet exemple, entraînement sur ImageNet) qui peuvent être optimisées ultérieurement pour une tâche de classification d'images dans un autre jeu de données.

La classification d’images dans Amazon SageMaker AI peut être exécutée dans deux modes : l’entraînement complet et l’apprentissage par transfert. En mode d'entraînement complet, le réseau est initialisé avec des pondérations aléatoires et entraîné intégralement sur des données utilisateur. En mode de formation de transfert, le réseau est initialisé avec des pondérations préentraînées, seule la couche supérieure entièrement gérée étant initialisée avec des pondérations aléatoires. Ensuite, l'ensemble du réseau est affiné avec de nouvelles données. Dans ce mode, l'entraînement peut être réalisé même avec un jeu de données plus petit. Cela est dû au fait que le réseau est déjà entraîné et, par conséquent, peut être utilisé dans des cas où les données d'entraînement ne sont pas suffisantes.