Création de tables dans le cadre de tâches d’extraction, de transformation et de chargement (ETL) - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création de tables dans le cadre de tâches d’extraction, de transformation et de chargement (ETL)

Vous pouvez utiliser Athena pour créer des tables qu’AWS Glue pourra utiliser dans le cadre de tâches ETL. Les tâches AWS Glue effectuent des opérations ETL. Une tâche AWS Glue exécute un script qui extrait les données à partir de sources, les transforme et les charge dans des cibles. Pour plus d'informations, consultez Création de tâches dans AWS Glue dans le AWS Glue Guide du développeur.

Création de tables Athena dans le cadre de tâches ETL AWS Glue

Les tables que vous créez dans Athena doivent se voir ajouter une propriété de table appelée classification, qui identifie le format des données. Ceci permet à AWS Glue d'être en mesure d'utiliser les tables pour les tâches ETL. Les valeurs de classification peuvent être avro, csv, json, orc, parquet, ou xml. Voici un exemple d'instruction CREATE TABLE dans Athena :

CREATE EXTERNAL TABLE sampleTable ( column1 INT, column2 INT ) STORED AS PARQUET TBLPROPERTIES ( 'classification'='parquet')

Si la propriété de table classification n’a pas été ajoutée lors de la création de la table, vous pouvez l’ajouter à l’aide de la console AWS Glue.

Pour ajouter la propriété de classification du tableau à l'aide de la console AWS Glue
  1. Connectez-vous à la AWS Management Console et ouvrez la console AWS Glue à l’adresse https://console.aws.amazon.com/glue/.

  2. Dans le panneau de navigation de la console, choisissez Tableaux.

  3. Choisissez le lien de la table que vous souhaitez modifier, puis sélectionnez Action, Modifier la table.

  4. Faites défiler vers le bas jusqu'à la section des Propriétés du tableau.

  5. Choisissez Ajouter.

  6. Pour Key (Clé), saisissez classification.

  7. Pour la Valeur, entrez un type de données (json par exemple).

  8. Choisissez Enregistrer.

    Dans la section Détails de la table, le type de données que vous avez saisi apparaîssent dans le champ Classification du tableau.

Pour en savoir plus, consultez Utilisation des tables dans le Guide du développeur AWS Glue.

Utilisation des tâches ETL pour optimiser les performances des requêtes

AWS GlueLes tâches peuvent vous aider à transformer les données dans un format qui optimise les performances des requêtes dans Athena. Les formats de données ont un grand impact sur les performances et les coûts d'interrogation dans Athena.

AWS Glue prend en charge l’écriture aux formats de données Parquet et ORC. Vous pouvez utiliser cette fonctionnalité pour transformer vos données afin de les utiliser dans Athena. Pour plus d’informations sur l’utilisation des formats Parquet et ORC et sur les autres manières d’améliorer les performances dans Athena, consultez Top 10 performance tuning tips for Amazon Athena.

Note

Pour réduire la probabilité qu’Athena ne puisse pas lire les types de données SMALLINT et TINYINT générés par une tâche ETL AWS Glue, convertissez SMALLINT et TINYINT en INT lors de la création d’une tâche ETL convertissant les données en ORC.

Automatisation des tâches ETL AWS Glue

Vous pouvez configurer les tâches ETL AWS Glue pour qu'elles s'exécutent automatiquement en fonction des déclencheurs. Cette fonctionnalité est idéale lorsque des données provenant de l’extérieur d’AWS sont transférées vers un compartiment Amazon S3 dans un format qui est par ailleurs non optimal pour les interrogations dans Athena. Pour plus d'informations, consultez la rubrique Déclenchement des tâches AWS Glue dans le Guide du développeur AWS Glue.