Choix d’un SerDe pour vos données
Le tableau ci-dessous répertorie les formats de données pris en charge dans Athena et les bibliothèques SerDe correspondantes.
| Format de données | Description | Types SerDe pris en charge dans Athena |
|---|---|---|
| Amazon Ion | Amazon Ion est un format de données abondamment typé et auto-descriptif qui est un superensemble de JSON, développé et ouvert par Amazon. | Utilisez SerDe Amazon Ion Hive. |
|
Apache Avro |
Format d'enregistrement des données dans Hadoop qui utilise des schémas basés sur JSON pour les valeurs d'enregistrement. |
Utilisez SerDe Avro. |
|
Apache Parquet |
Format pour le stockage en colonnes des données dans Hadoop. |
Utilisez le type SerDe Parquet et la compression SNAPPY. |
|
Fichiers journaux Apache WebServer |
Format pour le stockage des fichiers journaux dans Apache WebServer. |
Utilisez le type SerDe Grok ou SerDe Regex. |
|
journaux CloudTrail |
Format pour le stockage des fichiers journaux dans CloudTrail. |
|
|
CSV (valeurs séparées par des virgules) |
Pour les données au format CSV, chaque ligne représente un enregistrement de données, et chaque enregistrement se compose d'un ou de plusieurs champs, séparés par des virgules. |
|
|
Séparateur personnalisé |
Pour les données qui se trouvent dans ce format, chaque ligne représente un enregistrement de données. Les enregistrements sont séparés par des délimiteurs personnalisés. |
Utilisez le type SerDe Lazy Simple pour les fichiers CSV, TSV et avec séparateur personnalisé et spécifiez un séparateur à caractère unique personnalisé. |
|
JSON (JavaScript Object Notation) |
Pour les données JSON, chaque ligne représente un enregistrement de données, et chaque enregistrement se compose de paires attribut-valeur et de tableaux, séparés par des virgules. |
|
|
Journaux Logstash |
Format pour le stockage des fichiers journaux dans Logstash. |
Utilisez SerDe Grok. |
|
ORC (Optimized Row Columnar) |
Format pour le stockage en colonnes optimisé des données Hive. |
Utilisez le type SerDe ORC et la compression ZLIB. |
|
TSV (valeurs séparées par des tabulations) |
Pour les données au format TSV, chaque ligne représente un enregistrement de données, et chaque enregistrement se compose d'un ou de plusieurs champs, séparés par des tabulations. |
Utilisez le type SerDe Lazy Simple pour les fichiers CSV, TSV et avec séparateur personnalisé et spécifiez le caractère séparateur sous la forme |