Elaborazione delle caratteristiche con Spark ML e Scikit-learn
Prima di eseguire l’addestramento di un modello con algoritmi Amazon SageMaker AI integrati o algoritmi personalizzati, puoi utilizzare gli strumenti di pre-elaborazione Spark e scikit-learn per trasformare i dati e progettare le funzionalità.
Elaborazione di caratteristiche con Spark ML
È possibile eseguire processi di Spark ML con AWS Glue, un servizio ETL (estrazione, trasformazione, caricamento) serverless, dal notebook SageMaker AI. Puoi inoltre eseguire la connessione a cluster EMR esistenti per eseguire processi Spark ML con Amazon EMR. A questo scopo, è necessario un ruolo AWS Identity and Access Management (IAM) che concede l’autorizzazione per effettuare chiamate dal notebook SageMaker AI a AWS Glue.
Nota
Per vedere quali versioni di Python e Spark sono supportate da AWS Glue, consulta Note di rilascio di AWS Glue.
Dopo la progettazione delle caratteristiche, i processi Spark ML vengono compressi e serializzati in container MLeap che possono essere aggiunti a una pipeline di inferenza. Non è necessario utilizzare cluster Spark gestiti esternamente. Grazie a questo approccio, puoi ridimensionare senza problemi da un campione di righe a terabyte di dati. Gli stessi trasformatori funzionano per addestramento e inferenza, perciò non occorre duplicare la logica di pre-elaborazione e di progettazione caratteristiche né sviluppare una soluzione una tantum per rendere i modelli persistenti. Con pipeline di inferenza, non è necessario mantenere l'infrastruttura esterna e puoi effettuare previsioni direttamente da dati di input.
Quando esegui un processo Spark ML su AWS Glue, una pipeline Spark ML viene serializzata in formato MLeap
Per un esempio che mostra come eseguire l’elaborazione delle funzionalità con Spark ML, consulta il notebook di esempio Addestramento di un modello ML utilizzando Apache Spark in Amazon EMR e implementazione in SageMaker AI
Elaborazione di caratteristiche con Scikit Learn
È possibile eseguire e impacchettare processi scikit-learn in container direttamente in Amazon SageMaker AI. Per un esempio di codice Python per la compilazione di un modello di caratterizzazione scikit-learn che esegue l’addestramento in base al data set sui fiori della famiglia degli iris di Fisher