Scegliere una SerDe per i propri dati - Amazon Athena

Scegliere una SerDe per i propri dati

La seguente tabella elenca i formati di dati supportati in Athena e le relative librerie SerDe.

Formati di dati e di SerDe supportati
Formato dei dati Descrizione Tipi di SerDe supportati in Athena
Amazon Ion Amazon Ion è un formato di dati altamente tipizzato e autodescrittivo ed è un superset di JSON, sviluppato e reso disponibile in open source da Amazon. Utilizza il Amazon Ion Hive SerDe.

Apache Avro

Un formato per archiviare i dati in Hadoop che impiega schemi basati su JSON per i valori dei record.

Utilizzo della Avro SerDe.

Apache Parquet

Un formato per storage colonnare di dati in Hadoop.

Utilizzare la compressione SNAPPY e SerDe Parquet.

Log del server Web Apache

Formato per archiviare log nel server Web di Apache.

Utilizzare Grok SerDe o SerDe Regex.

Log di CloudTrail

Formato per archiviare log in CloudTrail.

CSV (valori separati da virgola)

Per i dati in CSV, ogni riga rappresenta un record di dati e ogni record è composto da uno o più campi, separati da virgole.

Delimitatore personalizzato

Per i dati in questo formato, ogni riga rappresenta un record di dati e i record sono separati da delimitatori personalizzati a carattere singolo.

Utilizzare Lazy Simple SerDe per CSV, TSV e file con delimitatori personalizzati e specificare un delimitatore di carattere singolo personalizzato.

JSON (JavaScript Object Notation)

Per i dati in JSON, ogni riga rappresenta un registro di dati e ogni registro è composto da coppie attributo-valore e da matrici, separate da virgole.

Log di Logstash

Formato per archiviare log in Logstash.

Utilizzo della Grok SerDe.

ORC (Optimized Row Columnar)

Un formato per storage colonnare ottimizzato basato su dati Hive.

Utilizzare la compressione ZLIB e ORC SerDe.

TSV (valori separati da tabulazione)

Per i dati in TSV, ogni riga rappresenta un record di dati e ogni record è composto da uno o più campi, separati da tabulazioni.

Utilizzare Lazy Simple SerDe per CSV, TSV e file con delimitatori personalizzati e specificare il carattere separatore come FIELDS TERMINATED BY '\t'.