Elaborazione delle caratteristiche con Spark ML e Scikit-learn - Amazon SageMaker AI

Elaborazione delle caratteristiche con Spark ML e Scikit-learn

Prima di eseguire l’addestramento di un modello con algoritmi Amazon SageMaker AI integrati o algoritmi personalizzati, puoi utilizzare gli strumenti di pre-elaborazione Spark e scikit-learn per trasformare i dati e progettare le funzionalità.

Elaborazione di caratteristiche con Spark ML

È possibile eseguire processi di Spark ML con AWS Glue, un servizio ETL (estrazione, trasformazione, caricamento) serverless, dal notebook SageMaker AI. Puoi inoltre eseguire la connessione a cluster EMR esistenti per eseguire processi Spark ML con Amazon EMR. A questo scopo, è necessario un ruolo AWS Identity and Access Management (IAM) che concede l’autorizzazione per effettuare chiamate dal notebook SageMaker AI a AWS Glue.

Nota

Per vedere quali versioni di Python e Spark sono supportate da AWS Glue, consulta Note di rilascio di AWS Glue.

Dopo la progettazione delle caratteristiche, i processi Spark ML vengono compressi e serializzati in container MLeap che possono essere aggiunti a una pipeline di inferenza. Non è necessario utilizzare cluster Spark gestiti esternamente. Grazie a questo approccio, puoi ridimensionare senza problemi da un campione di righe a terabyte di dati. Gli stessi trasformatori funzionano per addestramento e inferenza, perciò non occorre duplicare la logica di pre-elaborazione e di progettazione caratteristiche né sviluppare una soluzione una tantum per rendere i modelli persistenti. Con pipeline di inferenza, non è necessario mantenere l'infrastruttura esterna e puoi effettuare previsioni direttamente da dati di input.

Quando esegui un processo Spark ML su AWS Glue, una pipeline Spark ML viene serializzata in formato MLeap. Pertanto, puoi utilizzare il processo con lo SparkML Model Serving Container in una pipeline di inferenza di SageMaker AI. MLeap è un formato di serializzazione e un motore di esecuzione per le pipeline di Machine Learning. Supporta Spark, Scikit-learn e TensorFlow per l’addestramento delle pipeline e la loro esportazione in una pipeline serializzata denominata MLeap Bundle. Puoi deserializzare di nuovo i pacchetti in Spark per il punteggio in modalità batch o il runtime MLeap per eseguire servizi API in tempo reale.

Per un esempio che mostra come eseguire l’elaborazione delle funzionalità con Spark ML, consulta il notebook di esempio Addestramento di un modello ML utilizzando Apache Spark in Amazon EMR e implementazione in SageMaker AI.

Elaborazione di caratteristiche con Scikit Learn

È possibile eseguire e impacchettare processi scikit-learn in container direttamente in Amazon SageMaker AI. Per un esempio di codice Python per la compilazione di un modello di caratterizzazione scikit-learn che esegue l’addestramento in base al data set sui fiori della famiglia degli iris di Fisher e prevede la specie di iris in base alle misurazioni morfologiche, consulta IRIS Training and Prediction with Sagemaker Scikit-learn.