View a markdown version of this page

Interrogazione diretta dei dati di Amazon S3 in Service OpenSearch - OpenSearch Servizio Amazon

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Interrogazione diretta dei dati di Amazon S3 in Service OpenSearch

Questa sezione ti illustrerà il processo di creazione e configurazione di un'integrazione di origini dati in Amazon OpenSearch Service, consentendoti di interrogare e analizzare in modo efficiente i dati archiviati in Amazon S3.

Nelle pagine seguenti, imparerai come configurare un'origine dati con query diretta di Amazon S3, esplorare i prerequisiti necessari e seguire le step-by-step procedure utilizzando sia l'API che quella del Console di gestione AWS servizio. OpenSearch Descrive anche importanti passaggi successivi, tra cui la mappatura dei AWS Glue Data Catalog ruoli e la configurazione dei controlli di accesso nelle dashboard. OpenSearch

Prezzi

Amazon OpenSearch Service offre prezzi OpenSearch Compute Unit (OCU) per le query dirette su Amazon S3. Quando esegui le query dirette, ti vengono addebitati addebiti orari, indicati nella fattura come OCUs DirectQuery tipo di utilizzo dell'OCU. Saranno inoltre addebitati costi separati da Amazon S3 per lo storage dei dati.

Le query dirette sono di due tipi: interattive e con visualizzazione indicizzata.

  • Le query interattive vengono utilizzate per compilare il selettore di dati ed eseguire analisi sui dati in Amazon S3. Quando esegui una nuova query da Discover, OpenSearch Service avvia una nuova sessione che dura almeno tre minuti. OpenSearch Il servizio mantiene attiva questa sessione per garantire che le query successive vengano eseguite rapidamente.

  • Le query di visualizzazione indicizzata utilizzano il calcolo per mantenere le viste indicizzate nel Servizio. OpenSearch Queste query in genere richiedono più tempo perché inseriscono una quantità variabile di dati in un indice denominato. Per le origini dati Amazon S3, i dati indicizzati vengono archiviati in un dominio in base al tipo di istanza acquistato.

Per ulteriori informazioni, consulta le sezioni Direct Query e Serverless all'interno dei prezzi OpenSearch di Amazon Service.

Limitazioni

Le seguenti limitazioni si applicano alle query dirette in Amazon S3:

  • La query diretta per S3 è disponibile solo nei domini di OpenSearch servizio che eseguono la OpenSearch versione 2.13 o successiva e richiede l'accesso a. AWS Glue Data Catalog AWS Glue Data Catalog Le tabelle esistenti devono essere ricreate utilizzando SQL in Query Workbench. OpenSearch

  • Direct Query for S3 richiede di specificare un bucket di checkpoint su Amazon S3. Questo bucket mantiene lo stato delle viste indicizzate, inclusa l'ora dell'ultimo aggiornamento e i dati inseriti più di recente.

  • Il tuo OpenSearch dominio deve appartenere allo stesso. AWS Glue Data Catalog Account AWS Il tuo bucket S3 può trovarsi in un account diverso (richiede l'aggiunta di una condizione alla tua policy IAM), ma deve appartenere allo Regione AWS stesso dominio.

  • OpenSearch Le query Service Direct con S3 supportano solo le tabelle Spark generate da Query Workbench. Le tabelle generate all'interno di AWS Glue Data Catalog o Athena non sono supportate dallo streaming Spark, necessario per mantenere le viste indicizzate.

  • OpenSearch i tipi di istanza hanno limiti di payload in rete di 10 MiB o 100 MiB, a seconda del tipo di istanza specifico scelto.

  • Alcuni tipi di dati non sono supportati. I tipi di dati supportati sono limitati a Parquet, CSV e JSON.

  • Se la struttura dei dati cambia nel tempo, dovrai aggiornare le viste o le out-of-the-box integrazioni indicizzate per tenere conto delle modifiche alla struttura dei dati.

  • AWS CloudFormation i modelli non sono ancora supportati.

  • OpenSearch Le istruzioni SQL e OpenSearch PPL presentano limitazioni diverse quando si lavora con OpenSearch gli indici rispetto all'utilizzo di query dirette. Direct Query supporta comandi avanzati come JOINs sottoquery e ricerche, mentre il supporto per questi comandi sugli OpenSearch indici è limitato o inesistente. Per ulteriori informazioni, consulta Comandi SQL e PPL supportati.

Raccomandazioni

Per l'utilizzo di query dirette in Amazon S3, consigliamo quanto segue:

  • Inserisci dati in Amazon S3 utilizzando i formati di partizione di anno, mese, giorno e ora per velocizzare le query.

  • Quando crei indici ignoranti, usa i filtri Bloom per i campi con cardinalità elevata e min/max gli indici per i campi con intervalli di valori ampi. Per i campi ad alta cardinalità, prendi in considerazione l'utilizzo di un approccio basato sui valori per migliorare l'efficienza delle query.

  • Utilizzate Index State Management per mantenere lo spazio di archiviazione per le viste materializzate e gli indici di copertura.

  • Utilizzate la COALESCE SQL funzione per gestire le colonne mancanti e assicurarvi che i risultati vengano restituiti.

  • Usa i limiti per le tue query per assicurarti di non recuperare troppi dati.

Quote

Ogni volta che si avvia una query su un'origine dati Amazon S3 OpenSearch , Service apre una sessione e la mantiene attiva per almeno tre minuti. Ciò riduce la latenza delle query eliminando il tempo di avvio della sessione nelle query successive.

Description Massimo Può sovrascrivere
Connessioni per dominio 10
Fonti di dati per dominio 20
Indici per dominio 5
Sessioni simultanee per origine dati 10
Numero massimo di OCU per query 60
Tempo massimo di esecuzione della query (minuti) 30
Massimo OCUs per accelerazione 20
Archiviazione effimera massima 20

Supportato Regioni AWS

Quanto segue Regioni AWS è supportato per le query dirette in Amazon S3:

  • Asia Pacifico (Hong Kong)

  • Asia Pacifico (Mumbai)

  • Asia Pacifico (Seoul)

  • Asia Pacifico (Singapore)

  • Asia Pacifico (Sydney)

  • Asia Pacifico (Tokyo)

  • Canada (Centrale)

  • Europa (Francoforte)

  • Europa (Irlanda)

  • Europa (Stoccolma)

  • Stati Uniti orientali (Virginia settentrionale)

  • Stati Uniti orientali (Ohio)

  • Stati Uniti occidentali (Oregon)