Elaborazione di caratteristiche con Spark ML Elaborazione di caratteristiche con Scikit Learn

Elaborazione delle caratteristiche con Spark ML e Scikit-learn

Prima di addestrare un modello con algoritmi integrati di Amazon SageMaker AI o algoritmi personalizzati, puoi utilizzare i preprocessori Spark e scikit-learn per trasformare i tuoi dati e progettare le funzionalità.

Elaborazione di caratteristiche con Spark ML

Puoi eseguire lavori Spark ML con AWS Glue, un servizio ETL (estrazione, trasformazione, caricamento) senza server, dal tuo SageMaker notebook AI. Puoi inoltre eseguire la connessione a cluster EMR esistenti per eseguire processi Spark ML con Amazon EMR. Per fare ciò, è necessario un ruolo AWS Identity and Access Management (IAM) che conceda l'autorizzazione a effettuare chiamate dal notebook AI SageMaker a. AWS Glue

Nota

Per vedere quali versioni di Python e Spark sono AWS Glue supportate, consulta le note di rilascio di AWS Glue.

Dopo aver ingegnerizzato le funzionalità, puoi impacchettare e serializzare i lavori Spark ML MLeap in MLeap contenitori che puoi aggiungere a una pipeline di inferenza. Non è necessario utilizzare cluster Spark gestiti esternamente. Grazie a questo approccio, puoi ridimensionare senza problemi da un campione di righe a terabyte di dati. Gli stessi trasformatori funzionano per addestramento e inferenza, perciò non occorre duplicare la logica di pre-elaborazione e di progettazione caratteristiche né sviluppare una soluzione una tantum per rendere i modelli persistenti. Con pipeline di inferenza, non è necessario mantenere l'infrastruttura esterna e puoi effettuare previsioni direttamente da dati di input.

Quando esegui un job Spark ML su AWS Glue, una pipeline Spark ML viene serializzata in formato. MLeap Quindi, puoi utilizzare il job con lo SparkML Model Serving Container in una pipeline di inferenza SageMaker AI. MLeapè un formato di serializzazione e un motore di esecuzione per pipeline di apprendimento automatico. Supporta Spark, Scikit-learn e TensorFlow per addestrare le pipeline ed esportarle in una pipeline serializzata chiamata Bundle. MLeap Puoi deserializzare nuovamente i pacchetti in Spark per l'assegnazione del punteggio in modalità batch o in fase di esecuzione per alimentare i servizi API in tempo reale. MLeap

Per un esempio che mostra come implementare un processo con Spark ML, consulta la sezione Addestra un modello ML usando Apache Spark in Amazon EMR e distribuiscila in un notebook di esempio AI. SageMaker

Elaborazione di caratteristiche con Scikit Learn

Puoi eseguire e impacchettare lavori scikit-learn in contenitori direttamente in Amazon AI. SageMaker Per un esempio di codice Python per la compilazione di un modello di caratterizzazione scikit-learn che esegue l’addestramento in base al data set sui fiori della famiglia degli iris di Fisher e prevede la specie di iris in base alle misurazioni morfologiche, consulta IRIS Training and Prediction with Sagemaker Scikit-learn.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Pipeline di inferenza

Creazione di un modello di pipeline