Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Consulta directa de datos de Amazon S3 en Service OpenSearch
En esta sección se explica el proceso de creación y configuración de la integración de una fuente de datos en Amazon OpenSearch Service, lo que le permitirá consultar y analizar de forma eficiente los datos almacenados en Amazon S3.
En las siguientes páginas, aprenderá a configurar una fuente de datos de consulta directa de Amazon S3, a conocer los requisitos previos necesarios y a seguir los step-by-step procedimientos tanto con la API como con la API de Consola de administración de AWS servicio. OpenSearch También se describen los próximos pasos importantes, como la asignación de AWS Glue Data Catalog funciones y la configuración de los controles de acceso en los paneles de control. OpenSearch
Temas
Precios
Amazon OpenSearch Service ofrece precios por unidad de OpenSearch cómputo (OCU) para las consultas directas de Amazon S3. A medida que realizas consultas directas, se te cobrarán cargos OCUs por hora, que se indicarán como tipo de uso de DirectQuery OCU en tu factura. Amazon S3 también le cobrará cargos adicionales por el almacenamiento de datos.
Las consultas directas son de dos tipos: consultas de vista indexada e interactivas.
-
Las consultas interactivas se utilizan para rellenar el selector de datos y realizar análisis de los datos en Amazon S3. Cuando ejecuta una nueva consulta desde Discover, OpenSearch Service inicia una nueva sesión que dura un mínimo de tres minutos. OpenSearch El servicio mantiene esta sesión activa para garantizar que las consultas posteriores se ejecuten rápidamente.
-
Las consultas de vistas indexadas utilizan el procesamiento para mantener las vistas indexadas en el OpenSearch Servicio. Estas consultas suelen tardar más porque ingieren una cantidad de datos variable en un índice con nombre. En el caso de los orígenes de datos de Amazon S3, los datos indexados se almacenan en un dominio en función del tipo de instancia adquirido.
Para obtener más información, consulta las secciones Direct Query y Serverless de Amazon OpenSearch Service Pricing
Limitaciones
Las siguientes limitaciones se aplican a las consultas directas en Amazon S3:
-
La consulta directa para S3 solo está disponible en los dominios de OpenSearch servicio que ejecutan la OpenSearch versión 2.13 o posterior y requieren acceso a AWS Glue Data Catalog. AWS Glue Data Catalog Las tablas existentes se deben volver a crear con SQL en OpenSearch Query Workbench.
-
La consulta directa para S3 requiere que se especifique un bucket de puntos de control en Amazon S3. Este bucket mantiene el estado de las vistas indexadas, incluida la hora de la última actualización y los datos ingeridos más recientemente.
-
Su OpenSearch dominio y AWS Glue Data Catalog deben estar en el mismo dominio. Cuenta de AWS Su bucket de S3 puede estar en una cuenta diferente (es necesario añadir una condición a su política de IAM), pero debe estar en la Región de AWS misma cuenta que su dominio.
-
OpenSearch Las consultas directas de servicio con S3 solo admiten las tablas de Spark generadas desde Query Workbench. Las tablas generadas dentro de Athena AWS Glue Data Catalog o Athena no son compatibles con la transmisión de Spark, que es necesaria para mantener las vistas indexadas.
-
OpenSearch los tipos de instancias tienen limitaciones de carga útil de red de 10 MiB o 100 MiB, según el tipo de instancia específico que elijas.
-
Algunos tipos de datos no son compatibles. Los tipos de datos admitidos se limitan a Parquet, CSV y JSON.
-
Si la estructura de los datos cambia con el tiempo, tendrás que actualizar las vistas indexadas o las out-of-the-box integraciones para tener en cuenta los cambios en la estructura de datos.
-
AWS CloudFormation las plantillas aún no son compatibles.
-
OpenSearch Las sentencias SQL y OpenSearch PPL tienen limitaciones diferentes cuando se trabaja con OpenSearch índices en comparación con el uso de consultas directas. Direct Query admite comandos avanzados JOINs, como subconsultas y búsquedas, mientras que la compatibilidad con estos comandos en los OpenSearch índices es limitada o inexistente. Para obtener más información, consulte Comandos SQL y PPL compatibles.
Recomendaciones
Recomendamos lo siguiente al utilizar consultas directas en Amazon S3:
-
Ingiera datos en Amazon S3 mediante formatos de partición de año, mes, día y hora para acelerar las consultas.
-
Cuando cree índices de omisión, utilice los filtros Bloom para los campos con una cardinalidad alta y los min/max índices para los campos con rangos de valores amplios. Para los campos de cardinalidad alta, considere la posibilidad de utilizar un enfoque basado en valores para mejorar la eficiencia de las consultas.
-
Utilice Administración de estados de índice para mantener el almacenamiento de las vistas materializadas y los índices de cobertura.
-
Utilice la función
COALESCE SQLpara administrar las columnas que faltan y garantizar que se devuelvan los resultados. -
Aplica límites a tus consultas para asegurarte de no recuperar demasiados datos.
Cuotas
Cada vez que inicia una consulta a una fuente de datos de Amazon S3, OpenSearch Service abre una sesión y la mantiene activa durante al menos tres minutos. Esto reduce la latencia de las consultas al eliminar el tiempo de inicio de la sesión en las consultas posteriores.
| Description (Descripción) | Máximo | Puede anular |
|---|---|---|
| Conexiones por dominio | 10 | Sí |
| Origen de datos por dominio | 20 | Sí |
| Índices por dominio | 5 | Sí |
| Sesiones simultáneas por origen de datos | 10 | Sí |
| OCU máxima por consulta | 60 | Sí |
| Tiempo máximo de ejecución de consulta (minutos) | 30 | Sí |
| Máximo OCUs por aceleración | 20 | Sí |
| Almacenamiento efímero máximo | 20 | Sí |
Compatible Regiones de AWS
Regiones de AWS Se admite lo siguiente para las consultas directas en Amazon S3:
-
Asia-Pacífico (Hong Kong)
-
Asia-Pacífico (Mumbai)
-
Asia-Pacífico (Seúl)
-
Asia-Pacífico (Singapur)
-
Asia-Pacífico (Sídney)
-
Asia-Pacífico (Tokio)
-
Canadá (centro)
-
Europa (Fráncfort)
-
Europa (Irlanda)
-
Europa (Estocolmo)
-
Este de EE. UU. (Norte de Virginia)
-
Este de EE. UU. (Ohio)
-
Oeste de EE. UU. (Oregón)