Ottimizzare query con l’indicizzazione e il filtraggio delle partizioni AWS Glue - Amazon Athena

Ottimizzare query con l’indicizzazione e il filtraggio delle partizioni AWS Glue

Quando Athena esegue una query su tabelle partizionate, recupera e filtra le partizioni della tabella disponibili nel sottoinsieme pertinente alla query. Quando vengono aggiunti nuovi dati e partizioni, è necessario più tempo per elaborare le partizioni e il runtime delle query può aumentare. Se si dispone di una tabella con un numero elevato di partizioni che cresce nel tempo, considerare l'uso di indicizzazione e filtro delle partizioni AWS Glue. L'indicizzazione delle partizioni consente ad Athena di ottimizzare l'elaborazione delle partizioni e migliorare le prestazioni delle query su tabelle altamente partizionate. L'impostazione del filtro delle partizioni nelle proprietà di una tabella è un processo a due fasi:

  1. Creazione di un indice di partizione in AWS Glue.

  2. Abilitazione del filtro delle partizioni per la tabella.

Creazione di un indice di partizione

Per la procedura di creazione di un indice di partizione in AWS Glue, consultare Utilizzo degli indici delle partizioni nella Guida per sviluppatori di AWS Glue. Per le limitazioni sugli indici di partizione in AWS Glue, consultare la sezione Informazioni sugli indici delle partizioni su quella pagina.

Abilitazione del filtro delle partizioni

Per abilitare il filtro delle partizioni per la tabella, è necessario impostare una nuova proprietà della tabella in AWS Glue. Per la procedura di configurazione delle proprietà della tabella in AWS Glue, consulta la pagina Impostazione della proiezione delle partizioni. Quando modifichi i dettagli della tabella in AWS Glue, aggiungi la seguente coppia chiave-valore alla sezione Proprietà tabella:

  • Per Key (Chiave), aggiungi partition_filtering.enabled

  • Per Value (Valore), aggiungi true

È possibile disabilitare la proiezione delle partizioni su questa tabella in qualsiasi momento impostando partition_filtering.enabled su false.

Dopo aver completato le fasi precedenti, sarà possibile tornare alla console Athena per eseguire la query sui dati.

Per ulteriori informazioni sull'utilizzo di indicizzazione e filtraggio di partizioni, consulta Migliorare le prestazioni delle query di Amazon Athena utilizzando gli indici delle partizioni AWS Glue Data Catalog nel Blog dei big data AWS.