Bibliothèques SerDe JSON
Dans Athena, vous pouvez utiliser les bibliothèques SerDe pour désérialiser les données JSON. La désérialisation convertit les données JSON afin qu'elles puissent être sérialisées (écrites) dans un format différent comme Parquet ou ORC.
Note
Les bibliothèques Hive et OpenX s'attendent à ce que les données JSON soient sur une seule ligne (non formatées), les registres étant séparés par un caractère de nouvelle ligne.
Comme Amazon Ion est un sur-ensemble de JSON, vous pouvez utiliser le SerDe Amazon Ion Hive pour interroger des jeux de données JSON non Amazon Ion. Contrairement aux bibliothèques SerDe JSON Hive et OpenX, le SerDe Amazon Ion ne s’attend pas à ce que chaque ligne de données se trouve sur une ligne distincte. Cette fonction est utile si vous souhaitez interroger des jeux de données JSON au format « pretty print » ou si vous souhaitez diviser les champs d'une ligne avec des caractères de saut de ligne.
Noms des bibliothèques
Utilisez l'une des options suivantes :
org.apache.hive.hcatalog.data.JsonSerDe
org.openx.data.jsonserde.JsonSerDe
com.amazon.ionhiveserde.IonHiveSerDe
Ressources supplémentaires
Pour de plus amples informations sur l'utilisation de JSON et de JSON imbriqué dans Athena, consultez les ressources suivantes :
-
Créer des tables dans Amazon Athena à partir de JSON imbriqués et de mappages en utilisant JSONSerDe
(Blog Big Data AWS) -
I get errors when I try to read JSON data in Amazon Athena
(article du Centre de connaissances AWS) -
hive-json-schema
(GitHub) – Outil écrit en Java qui génère des instructions CREATE TABLEà partir d'exemples de document JSON. Les instructionsCREATE TABLEgénérées utilisent le SerDe JSON OpenX.