Uso de Apache Spark en Amazon Athena
Amazon Athena facilita la ejecución interactiva del análisis y la exploración de datos mediante Apache Spark sin necesidad de planificar, configurar ni administrar los recursos. Ejecutar aplicaciones de Apache Spark en Athena significa enviar el código de Spark para su procesamiento y recibir los resultados directamente sin necesidad de configuración adicional. Apache Spark en Amazon Athena no requiere servidor y proporciona un escalado automático y bajo demanda que ofrece computación instantánea para cumplir con los cambios en los volúmenes de datos y los requisitos de procesamiento.
En la versión de lanzamiento Versión 3 del motor PySpark, puede utilizar la experiencia simplificada de cuadernos de la consola de Amazon Athena para desarrollar aplicaciones de Apache Spark mediante las API de cuadernos de Athena o Python.
En la versión de lanzamiento Apache Spark versión 3.5, puede ejecutar el código de Spark desde los cuadernos de Estudio unificado de Amazon SageMaker o desde sus clientes compatibles con Spark Connect preferidos.
Amazon Athena ofrece las siguientes características:
-
Uso de la consola: envíe aplicaciones de Spark desde la consola de Amazon Athena (solo motor de Pyspark versión 3).
-
Creación de scripts: cree y depure aplicaciones de Apache Spark en Python de forma rápida e interactiva.
-
Escalado dinámico: Amazon Athena determina automáticamente los recursos de procesamiento y memoria necesarios para ejecutar un trabajo y los escala continuamente en consecuencia hasta los máximos que usted especifique. Este escalado dinámico reduce los costos sin afectar a la velocidad.
-
Experiencia con cuadernos: utilice los cuadernos de Estudio unificado de Amazon SageMaker AI para crear, editar y ejecutar cálculos mediante una interfaz familiar. En la versión 3 del motor de Pyspark, puede usar los cuadernos integrados en la consola de Athena que son compatibles con los cuadernos de Jupyter y contienen una lista de celdas que se ejecutan en orden como cálculos. El contenido de las celdas puede incluir código, texto, Markdown, cálculos, gráficos y contenido multimedia enriquecido.
Para obtener información adicional, consulte Ejecutar Spark SQL en Amazon Athena Spark