Considerazioni e limitazioni - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Considerazioni e limitazioni

Ambito generale

Esamina le seguenti limitazioni quando usi Lake Formation con EMR Serverless.

Nota

Quando abiliti Lake Formation per un job Spark su EMR Serverless, il job avvia un driver di sistema e un driver utente. Se hai specificato la capacità preinizializzata all'avvio, i driver forniti dalla capacità preinizializzata e il numero di driver di sistema è uguale al numero di driver utente specificato. Se si sceglie la capacità On Demand, EMR Serverless avvia un driver di sistema oltre a un driver utente. Per stimare i costi associati al tuo lavoro EMR Serverless with Lake Formation, utilizza il. Calcolatore dei prezzi AWS

Permissions

  • Per applicare i controlli di accesso, le operazioni EXPLAIN PLAN e DDL come DESCRIBE TABLE non espongono informazioni riservate.

  • Quando registri una posizione in una tabella con Lake Formation, l'accesso ai dati utilizza le credenziali archiviate di Lake Formation anziché le autorizzazioni IAM del ruolo di job runtime EMR Serverless. I processi falliranno se il ruolo registrato per la posizione della tabella non è configurato correttamente, anche se il ruolo di runtime dispone delle autorizzazioni S3 IAM per quella posizione.

  • A partire da Amazon EMR 7.12, puoi scrivere su tabelle Hive e Iceberg esistenti utilizzando DataFrameWriter (V2) con credenziali Lake Formation in modalità di aggiunta. Per le operazioni di sovrascrittura o durante la creazione di nuove tabelle, EMR utilizza le credenziali del ruolo di runtime per modificare i dati della tabella.

  • Le seguenti limitazioni si applicano quando si utilizzano viste o tabelle memorizzate nella cache come dati di origine (queste limitazioni non si applicano alle viste del AWS Glue Data Catalog):

    • Per le operazioni MERGE, DELETE e UPDATE

      • Supportato: utilizzo di viste e tabelle memorizzate nella cache come tabelle di origine.

      • Non supportato: utilizzo di viste e tabelle memorizzate nella cache nelle clausole di assegnazione e condizione.

    • Per le operazioni CREATE OR REPLACE e REPLACE TABLE AS SELECT:

      • Non supportata: utilizzo di viste e tabelle memorizzate nella cache come tabelle di origine.

  • Le tabelle Delta Lake con UDFs dati di origine supportano le operazioni MERGE, DELETE e UPDATE solo quando il vettore di eliminazione è abilitato.

Registri e debug

  • EMR Serverless limita l'accesso ai registri Spark dei driver di sistema sulle applicazioni abilitate per Lake Formation. Poiché il driver di sistema viene eseguito con autorizzazioni elevate, gli eventi e i registri generati dal driver di sistema possono includere informazioni riservate. Per impedire a utenti o codici non autorizzati di accedere a questi dati sensibili, EMR Serverless disabilita l'accesso ai registri dei driver di sistema.

  • I log dei profili di sistema vengono sempre conservati nello storage gestito: si tratta di un'impostazione obbligatoria che non può essere disabilitata. Questi registri vengono archiviati in modo sicuro e crittografati utilizzando una chiave KMS gestita dal cliente o una chiave KMS gestita. AWS

Iceberg

Esamina le seguenti considerazioni quando usi Apache Iceberg:

  • È possibile utilizzare Apache Iceberg solo con il catalogo delle sessioni e non con i cataloghi con nomi arbitrari.

  • Le tabelle Iceberg registrate in Lake Formation supportano solo le tabelle di metadatihistory,metadata_log_entries,, snapshots filesmanifests, e. refs Amazon EMR nasconde le colonne che potrebbero contenere dati sensibili, ad esempiopartitions, path e. summaries Questa limitazione non si applica alle tabelle Iceberg che non sono registrate in Lake Formation.

  • Le tabelle non registrate in Lake Formation supportano tutte le stored procedure Iceberg. Le procedure di register_table e migrate non sono supportate per nessuna tabella.

  • Ti suggeriamo di utilizzare Iceberg DataFrameWriter V2 anziché V1.