Lanzamiento de un clúster de Amazon EMR con Trino - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Lanzamiento de un clúster de Amazon EMR con Trino

A continuación, se describen las opciones de configuración correctas al momento de crear un clúster con Trino.

Uso de un conector Hive para que los datos estén disponibles para su consulta

Puede configurar un conector Trino para un metalmacén de Hive con el fin de consultar los datos del metalmacén de su clúster. Un metalmacén es una capa de abstracción que hace que el contenido o los datos basados en archivos estén disponibles en forma de tablas, por lo que es fácil consultarlos. Debe configurar un conector en Amazon EMR para que las tablas del metalmacén de Hive estén disponibles en el clúster. El procedimiento siguiente demuestra cómo hacerlo.

  1. Elija AWS Glue en la consola y cree una tabla basada en sus datos de origen en Amazon S3. Una tabla del catálogo de datos de AWS Glue es la definición de metadatos de los datos. En este contexto, tiene sentido crear la tabla manualmente, creando las columnas que desee a partir de los datos de origen. Para obtener más información sobre la creación de tablas en AWS Glue a partir de datos semiestructurados en Amazon S3, consulte Creación de tablas con la consola en la Guía del usuario de AWS Glue.

  2. Ajuste su configuración como parte de la creación de clústeres. Seleccione la pestaña Configuraciones. Las configuraciones son requisitos opcionales para su clúster. Cuando introduzcas una configuración, añade JSON como en el siguiente ejemplo, en el que se indica a Trino que utilice el catálogo de datos de AWS Glue como su metabastore externo de Hive para los metadatos de las tablas:

    { "classification": "trino-connector-hive", "properties": { "hive.metastore": "glue" } }

    Como alternativa, puede aplicar las configuraciones en la sección Configuración de software al momento de crear un clúster.

    Además, puede configurar otros tipos de conectores, por ejemplo, para conectarse con Apache Iceberg. Para obtener más información, consulte Use an Iceberg cluster with Trino en la Guía de versiones de Amazon EMR. La configuración de ajustes adicionales es opcional.

Para continuar con los pasos de introducción, consulte Conexión al nodo principal del clúster de Amazon EMR y ejecución de consultas.

Creación de un clúster con Trino

A continuación, se describen las opciones de configuración correctas al crear un clúster que desee utilizar con Trino.

importante

Antes de crear el clúster, complete la configuración del catálogo de datos de AWS Glue como su metaalmacén de Hive, que le recomendamos para empezar. Para obtener más información, consulte Uso de un conector Hive para que los datos estén disponibles para su consulta.

  1. En la AWS consola, seleccione Amazon EMR de los servicios. Cuando elige Amazon EMR, si tiene clústeres existentes, se muestran sus clústeres de EMR en EC2.

  2. Elija Create cluster. Desde aquí, se inicia el proceso de creación de un clúster.

  3. Asigne un nombre a su clúster y elija una versión de Amazon EMR. Puede elegir la versión más reciente para el tutorial.

  4. Elija el paquete Trino, que tiene la aplicación Trino preseleccionada. Los paquetes se configuran para mayor comodidad cuando se conoce con antelación el propósito del clúster. De lo contrario, puede simplemente seleccionar la casilla de verificación de Trino.

  5. En Configuración del clúster, elija Grupos de instancias uniformes. Continúe y elimine grupos de instancias adicionales.

  6. Elija un tipo de instancia. Por lo general, recomendamos que elija un tipo de instancia con al menos 16 GiB de memoria. Además, para Aprovisionamiento y escalado de clústeres, elija Establecer el tamaño del clúster manualmente.

  7. En este punto, establece la configuración de tu metatienda de Hive para que apunte a Glue AWS . Esto se detalla en la sección Uso de un conector Hive para que los datos estén disponibles para su consulta. Complételo antes de crear el clúster.

  8. Elija Create cluster. Puede tardar unos minutos en finalizar.

    Los pasos que aparecen aquí no cubren todos los pasos de configuración en detalle. Encontrará más información sobre la configuración de un clúster en Plan, configure and launch Amazon EMR clusters.

nota

No seleccione Presto y Trino para usarlos en el mismo clúster. No se admite su ejecución conjunta. También se recomienda que, si ejecuta Trino, no ejecute ninguna otra aplicación en el clúster, como Spark.