Creare tabelle per processi ETL - Amazon Athena

Creare tabelle per processi ETL

È possibile utilizzare Athena per creare tabelle AWS Glue utilizzabili per processi ETL. I processi AWS Glue eseguono operazioni ETL. Un processo AWS Glue esegue uno script che estrae dati dalle origini, li trasforma e li carica nelle destinazioni. Per ulteriori informazioni, consulta la sezione relativa alla Creazione di processi in AWS Glue nella AWS Glue Guida per gli sviluppatori.

Creazione di tabelle Athena per processi ETL AWS Glue

Alle tabelle da te create in Athena devi aggiungere una proprietà di tabella, denominata classification, che identifica il formato dei dati. Ciò consente a AWS Glue di utilizzare le tabelle per processi ETL. I valori di classificazione possono essere avro, csv, json, orc, parquet o xml. Di seguito è riportata un'istruzione CREATE TABLE di esempio in Athena:

CREATE EXTERNAL TABLE sampleTable ( column1 INT, column2 INT ) STORED AS PARQUET TBLPROPERTIES ( 'classification'='parquet')

Se la proprietà della tabella classification non è stata aggiunta al momento della creazione della tabella, è possibile aggiungerla utilizzando la console AWS Glue.

Per aggiungere la proprietà della tabella di classificazione utilizzando la console AWS Glue
  1. Accedere alla Console di gestione AWS, quindi aprire la console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/.

  2. Nel pannello di navigazione della console, seleziona Tables (Tabelle).

  3. Scegli il collegamento per la tabella che desideri modificare, quindi scegli Actions (Operazioni), Edit table details (Modifica tabella).

  4. Scorri verso il basso fino alla sezione Table properties (Proprietà della tabella).

  5. Scegli Aggiungi.

  6. In Chiave, inserire classification.

  7. Per Value (Valore), inserisci un tipo di dati (ad esempio, json).

  8. Selezionare Salva.

    Nella sezione Table details (Dettagli della tabella), il tipo di dati che hai inserito appare nel campo Classification (Classificazione) della tabella.

Per ulteriori informazioni, consulta l'argomento relativo all'utilizzo delle tabelle nella Guida per sviluppatori AWS Glue.

Utilizzare processi ETL per ottimizzare le prestazioni delle query

AWS GlueI processi consentono di trasformare i dati in un formato che ottimizza le prestazioni delle query Athena. I formati dei dati influiscono moltissimo sulle prestazioni delle query e sui costi delle query in Athena.

AWS Glue supporta la scrittura nei formati di dati Parquet e ORC. È possibile utilizzare questa funzionalità per trasformare i dati da usare in Athena. Per ulteriori informazioni sull’utilizzo di Parquet e ORC e su altri metodi per migliorare le prestazioni in Athena, consultare I 10 migliori consigli di ottimizzazione delle prestazioni per Amazon Athena.

Nota

Per ridurre le probabilità che Athena non sia in grado di leggere i tipi di dati SMALLINT e TINYINT generati da un processo ETL di AWS Glue, convertire SMALLINT e TINYINT in INTquando si crea un processo ETL che converte dati in ORC.

Automatizzare i processi AWS Glue per ETL

È possibile configurare un processo ETL di AWS Glue affinché si esegua automaticamente in base a dei trigger. Questa funzionalità è ideale quando dati esterni ad AWS vengono trasmessi in un bucket Amazon S3 in un formato non ottimale per l'esecuzione di query in Athena. Per ulteriori informazioni, consulta Attivazione dei processi AWS Glue nella Guida per sviluppatori di AWS Glue.