Ottimizzazione delle prestazioni delle query sulle tabelle di metadati

Poiché S3 Metadata si basa sul formato di tabella Apache Iceberg, è possibile ottimizzare le prestazioni e i costi delle query sulle tabelle del diario utilizzando intervalli di tempo specifici.

Ad esempio, la seguente query SQL fornisce il livello di sensibilità dei nuovi oggetti in un bucket per uso generico S3:


SELECT key, object_tags['SensitivityLevel'] 
FROM "b_general-purpose-bucket-name"."journal"
WHERE record_type = 'CREATE'
GROUP BY object_tags['SensitivityLevel']

Questa query esegue la scansione dell’intera tabella del diario, il che potrebbe richiedere molto tempo. Per migliorare le prestazioni, è possibile includere la colonna record_timestamp per concentrarsi su un intervallo di tempo specifico. È inoltre consigliabile utilizzare il nome di tabella completo, che puoi trovare nella console Amazon S3 nella pagina dei dettagli di configurazione dei metadati della scheda Metadati del bucket per uso generico. Ecco una versione aggiornata della precedente query che analizza i nuovi oggetti dell'ultimo mese:


SELECT key, object_tags['SensitivityLevel'] 
FROM b_general-purpose-bucket-name"."aws-s3.b_general-purpose-bucket-name.journal"
WHERE record_type = 'CREATE'
AND record_timestamp > (CURRENT_TIMESTAMP – interval '1' month)
GROUP BY object_tags['SensitivityLevel']

Per migliorare le prestazioni delle query sulle tabelle di inventario, assicurati di eseguirle solo sul numero minimo di colonne necessarie.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Query di tabelle di metadati con motori di query open-source

Esempi di query di tabelle di metadati