Abilita la convalida della qualità dei dati - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Abilita la convalida della qualità dei dati

Puoi abilitare i controlli di qualità dei dati fornendo IDs nel prompt sia il cluster di origine che quello di destinazione. Il sistema esegue l'applicazione esistente sul cluster di origine per raccogliere i metadati di base per il confronto.

Nota: solo le operazioni di scrittura di Spark possono essere monitorate per la qualità dei dati.

Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.

Differenze nel flusso di lavoro relativo alla qualità

Il flusso di lavoro segue gli stessi passaggi del processo di aggiornamento standard, con questi passaggi aggiuntivi nell'ordine precedente:

  • [Dopo la fase 3: revisione e personalizzazione del piano]

    • Crea con la configurazione corrente: crea l'applicazione con la configurazione corrente per l'invio del cluster di origine.

    • Convalida sul cluster EMR di origine: esegui l'applicazione originale sulla versione Spark di origine e raccogli i metadati di output per il confronto di base.

  • [Dopo la fase 7: riepilogo dell'aggiornamento] Riepilogo sulla qualità dei dati: rapporto di confronto sulla qualità dei dati tra versioni e analisi.

La funzionalità di mancata corrispondenza della qualità dei dati attualmente include:

  • Controlli dello schema: rileva le modifiche nella struttura delle colonne: colonne mancanti o aggiunte di recente, differenze tra i tipi di dati e modifiche di annullabilità.

  • Controlli dei valori (solo colonne numeriche e stringhe)

    • Confronta min, max e mean (media solo per le colonne numeriche).

    • Per le stringhe, min e max si basano sull'ordine lessicografico.

  • Controlli statistici aggregati: confronta il numero totale di righe tra gli output di origine e di destinazione.

Convalida della qualità dei dati: ambito e limiti

Data Quality Validation supporta EMR EC2 - step utilizzando il comando spark-submit con la versione Spark >= 3.0 e il cluster EMR non può avere > 1. StepConcurrencyLevel La Data Quality Validation valuta le statistiche sui nodi data sink del piano di query Spark (i metadati di Data Source/Transforms non vengono acquisiti) e copre le operazioni di scrittura più comuni di Spark, tra cui scritture di file, inserimenti di database, creazione di tabelle e vari output di fonti di dati.