Consulta del lago de datos

Puede utilizar Amazon Redshift para consultar datos en archivos de Amazon S3 sin tener que cargar los datos en tablas de Amazon Redshift. Amazon Redshift proporciona la capacidad SQL diseñada para un procesamiento de análisis en línea (OLAP) rápido de conjuntos de datos muy grandes que se almacenan tanto en clústeres de Amazon Redshift como en lagos de datos de Amazon S3. Puede consultar datos en muchos formatos, incluidos Iceberg, Parquet, ORC, RCFile, TextFile, SequenceFile, RegexSerde, OpenCSV y AVRO. Puede crear esquemas y tablas externos para definir la estructura de los archivos en Amazon S3. A continuación, utiliza un catálogo de datos externo como AWS Glue o su propio metastore de Apache Hive. Los cambios en cualquier tipo de catálogo de datos están disponibles de inmediato en todos sus clústeres de Amazon Redshift.

Después de registrar sus datos con un catálogo de datos de AWS Glue y habilitarlo con AWS Lake Formation, puede empezar a consultar su lago de datos.

Puede particionar las tablas externas en una o más columnas para optimizar el rendimiento de las consultas a través de la eliminación de particiones. Puede consultar y unir las tablas externas con las tablas de Amazon Redshift. Puede acceder a tablas externas desde varios clústeres de Amazon Redshift y consultar los datos de Amazon S3 desde cualquier clúster de la misma región de AWS. Cuando actualiza los archivos de datos de Amazon S3, los datos están disponibles de inmediato para consultarlos desde cualquiera de los clústeres de Amazon Redshift.

Uso del motor de consultas de lago de datos integrado para RG y Redshift sin servidor

Los clústeres de RG de Amazon Redshift y Amazon Redshift sin servidor incluyen un motor de consulta de lago de datos integrado que se ejecuta en los propios recursos de computación del clúster, lo que ofrece una experiencia unificada tanto para casos de uso de lagos de datos como de almacenamiento de datos.

El motor de consultas del lago de datos integrado elimina la necesidad de utilizar Redshift Spectrum y elimina los cargos asociados a Redshift Spectrum. No se requiere ninguna configuración adicional para habilitar el motor de consultas integrado del lago de datos, ya que está habilitado de forma predeterminada.

nota

En algunos casos, es posible que observe un rendimiento más lento en RG en comparación con los clústeres de RA3 que ejecutan Redshift Spectrum, que se escala de forma independiente mediante recursos de computación dedicados. Si observa que el rendimiento de las consultas es más lento, considere la posibilidad de añadir más nodos o actualizarlos a instancias de RG de mayor tamaño.

Uso de Redshift Spectrum para DC2 y RA3

En los clústeres aprovisionados con DC2 y RA3, Redshift Spectrum reside en servidores dedicados de Amazon Redshift que son independientes de su clúster. Redshift Spectrum inserta muchas tareas que requieren un uso intensivo de cómputo, como el filtrado y la agrupación de predicados, a la capa de Redshift Spectrum. Redshift Spectrum también escala de forma inteligente para aprovechar el procesamiento masivo en paralelo.

Para obtener más información acerca de Redshift Spectrum, incluido cómo trabajar con Redshift Spectrum y lagos de datos, consulte Introducción a Amazon Redshift Spectrum en la Guía para desarrolladores de bases de datos Amazon Redshift.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Consulta de datos que no están la base de datos de Amazon Redshift

Consulta de orígenes de datos remotos