Choix d’un SerDe pour vos données - Amazon Athena

Choix d’un SerDe pour vos données

Le tableau ci-dessous répertorie les formats de données pris en charge dans Athena et les bibliothèques SerDe correspondantes.

Formats de données et SerDe pris en charge
Format de données Description Types SerDe pris en charge dans Athena
Amazon Ion Amazon Ion est un format de données abondamment typé et auto-descriptif qui est un superensemble de JSON, développé et ouvert par Amazon. Utilisez SerDe Amazon Ion Hive.

Apache Avro

Format d'enregistrement des données dans Hadoop qui utilise des schémas basés sur JSON pour les valeurs d'enregistrement.

Utilisez SerDe Avro.

Apache Parquet

Format pour le stockage en colonnes des données dans Hadoop.

Utilisez le type SerDe Parquet et la compression SNAPPY.

Fichiers journaux Apache WebServer

Format pour le stockage des fichiers journaux dans Apache WebServer.

Utilisez le type SerDe Grok ou SerDe Regex.

journaux CloudTrail

Format pour le stockage des fichiers journaux dans CloudTrail.

CSV (valeurs séparées par des virgules)

Pour les données au format CSV, chaque ligne représente un enregistrement de données, et chaque enregistrement se compose d'un ou de plusieurs champs, séparés par des virgules.

Séparateur personnalisé

Pour les données qui se trouvent dans ce format, chaque ligne représente un enregistrement de données. Les enregistrements sont séparés par des délimiteurs personnalisés.

Utilisez le type SerDe Lazy Simple pour les fichiers CSV, TSV et avec séparateur personnalisé et spécifiez un séparateur à caractère unique personnalisé.

JSON (JavaScript Object Notation)

Pour les données JSON, chaque ligne représente un enregistrement de données, et chaque enregistrement se compose de paires attribut-valeur et de tableaux, séparés par des virgules.

Journaux Logstash

Format pour le stockage des fichiers journaux dans Logstash.

Utilisez SerDe Grok.

ORC (Optimized Row Columnar)

Format pour le stockage en colonnes optimisé des données Hive.

Utilisez le type SerDe ORC et la compression ZLIB.

TSV (valeurs séparées par des tabulations)

Pour les données au format TSV, chaque ligne représente un enregistrement de données, et chaque enregistrement se compose d'un ou de plusieurs champs, séparés par des tabulations.

Utilisez le type SerDe Lazy Simple pour les fichiers CSV, TSV et avec séparateur personnalisé et spécifiez le caractère séparateur sous la forme FIELDS TERMINATED BY '\t'.