View a markdown version of this page

Interrogation directe des données Amazon S3 dans Service OpenSearch - Amazon OpenSearch Service

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Interrogation directe des données Amazon S3 dans Service OpenSearch

Cette section explique le processus de création et de configuration d'une intégration de source de données dans Amazon OpenSearch Service, afin de vous permettre d'interroger et d'analyser efficacement vos données stockées dans Amazon S3.

Dans les pages suivantes, vous apprendrez à configurer une source de données à requête directe Amazon S3, à définir les prérequis nécessaires et à suivre les step-by-step procédures utilisant à la fois l'API et l' OpenSearch API de AWS Management Console service. Il couvre également les prochaines étapes importantes, notamment le mappage AWS Glue Data Catalog des rôles et la configuration des contrôles d'accès dans les OpenSearch tableaux de bord.

Tarification

Amazon OpenSearch Service propose une tarification par unité de OpenSearch calcul (OCU) pour les requêtes directes Amazon S3. Lorsque vous effectuez des requêtes directes, vous devez payer des frais OCUs par heure, indiqués comme type d'utilisation de l' DirectQuery OCU sur votre facture. Amazon S3 vous facturera également des frais distincts pour le stockage des données.

Les requêtes directes sont de deux types : les requêtes de vue interactives et les requêtes de vue indexées.

  • Les requêtes interactives sont utilisées pour renseigner le sélecteur de données et effectuer des analyses sur vos données dans Amazon S3. Lorsque vous exécutez une nouvelle requête depuis Discover, le OpenSearch service démarre une nouvelle session d'une durée minimale de trois minutes. OpenSearch Le service maintient cette session active pour garantir que les requêtes suivantes s'exécutent rapidement.

  • Les requêtes de vues indexées utilisent le calcul pour maintenir les vues indexées dans OpenSearch Service. Ces requêtes prennent généralement plus de temps car elles ingèrent une quantité variable de données dans un index nommé. Pour les sources de données Amazon S3, les données indexées sont stockées dans un domaine en fonction du type d'instance acheté.

Pour plus d'informations, consultez les sections Direct Query et Serverless d'Amazon OpenSearch Service Pricing.

Limitations

Les limites suivantes s'appliquent aux requêtes directes dans Amazon S3 :

  • La requête directe pour S3 n'est disponible que sur les domaines de OpenSearch service exécutant OpenSearch la version 2.13 ou ultérieure et nécessite un accès à AWS Glue Data Catalog. AWS Glue Data Catalog Les tables existantes doivent être recréées à l'aide de SQL dans OpenSearch Query Workbench.

  • La requête directe pour S3 nécessite que vous spécifiiez un compartiment de point de contrôle sur Amazon S3. Ce compartiment conserve l'état de vos vues indexées, y compris l'heure de la dernière actualisation et les dernières données ingérées.

  • Votre OpenSearch domaine AWS Glue Data Catalog doit se trouver dans le même Compte AWS. Votre compartiment S3 peut se trouver dans un autre compte (une condition doit être ajoutée à votre politique IAM), mais il doit se trouver dans le même compte Région AWS que votre domaine.

  • OpenSearch Les requêtes directes avec S3 ne prennent en charge que les tables Spark générées à partir de Query Workbench. Les tables générées dans AWS Glue Data Catalog ou Athena ne sont pas prises en charge par le streaming Spark, qui est nécessaire pour conserver les vues indexées.

  • OpenSearch les types d'instance ont des limites de charge utile en réseau de 10 MiB ou 100 MiB, selon le type d'instance spécifique que vous choisissez.

  • Certains types de données ne sont pas pris en charge. Les types de données pris en charge sont limités à Parquet, CSV et JSON.

  • Si la structure de vos données change au fil du temps, vous devrez mettre à jour vos vues indexées ou vos out-of-the-box intégrations pour tenir compte des modifications de structure des données.

  • AWS CloudFormation les modèles ne sont pas encore pris en charge.

  • OpenSearch Les instructions SQL et OpenSearch PPL présentent des limites différentes lors de l'utilisation d' OpenSearch index par rapport à l'utilisation de requêtes directes. La requête directe prend en charge les commandes avancées telles que JOINs les sous-requêtes et les recherches, tandis que la prise en charge de ces commandes sur les OpenSearch index est limitée, voire inexistante. Pour de plus amples informations, veuillez consulter Commandes SQL et PPL prises en charge.

Recommandations

Nous recommandons ce qui suit lorsque vous utilisez des requêtes directes dans Amazon S3 :

  • Ingérez des données dans Amazon S3 en utilisant des formats de partition tels que l'année, le mois, le jour et l'heure pour accélérer les requêtes.

  • Lorsque vous créez des index de saut, utilisez des filtres Bloom pour les champs présentant une cardinalité élevée et des min/max index pour les champs contenant de grandes plages de valeurs. Pour les champs à cardinalité élevée, envisagez d'utiliser une approche basée sur les valeurs afin d'améliorer l'efficacité des requêtes.

  • Utilisez la gestion de l'état des index pour conserver le stockage des vues matérialisées et des index de couverture.

  • Utilisez cette COALESCE SQL fonction pour gérer les colonnes manquantes et vous assurer que les résultats sont renvoyés.

  • Limitez vos requêtes pour vous assurer de ne pas récupérer trop de données.

Quotas

Chaque fois que vous lancez une requête vers une source de données Amazon S3, OpenSearch Service ouvre une session et la maintient active pendant au moins trois minutes. Cela réduit la latence des requêtes en supprimant le temps de démarrage des sessions lors des requêtes suivantes.

Description Maximum Peut annuler
Connexions par domaine 10 Oui
Sources de données par domaine 20 Oui
Index par domaine 5 Oui
Sessions simultanées par source de données 10 Oui
OCU maximum par requête 60 Oui
Durée maximale d'exécution des requêtes (minutes) 30 Oui
Maximum OCUs par accélération 20 Oui
Stockage éphémère maximal 20 Oui

Soutenu Régions AWS

Régions AWS Les éléments suivants sont pris en charge pour les requêtes directes dans Amazon S3 :

  • Asie-Pacifique (Hong Kong)

  • Asie-Pacifique (Mumbai)

  • Asie-Pacifique (Séoul)

  • Asie-Pacifique (Singapour)

  • Asie-Pacifique (Sydney)

  • Asie-Pacifique (Tokyo)

  • Canada (Centre)

  • Europe (Francfort)

  • Europe (Irlande)

  • Europe (Stockholm)

  • USA Est (Virginie du Nord)

  • USA Est (Ohio)

  • USA Ouest (Oregon)