Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWS runtime for Apache Spark(vista previa de emr-spark-8.0)
La siguiente tabla muestra las versiones de la aplicación disponibles con (emr-spark-8.0-preview). AWS runtime for Apache Spark
| Aplicación | Versión |
|---|---|
| Spark | 4.0.1-amzn-0 |
AWS runtime for Apache Spark(emr-spark-8.0-preview) notas de la versión
-
Versión preliminar: se trata de una versión preliminar que incluye Apache Spark 4.0.1.
AWS runtime for Apache SparkEsta vista previa solo está disponible en EMR Serverless. -
Disponibilidad regional: esta versión preliminar está disponible en todas AWS las regiones en las que EMR Serverless está disponible, excepto en las regiones de China y AWS GovCloud (EE. UU.).
-
Información sobre la versión de la aplicación: esta versión incluye las siguientes versiones de la aplicación:
-
AWS SDK for Java 2.35.5, 1.12.792
-
Python 3.9, 3.11, 3.12
-
Scala 2.13.16
-
AmazonCloudWatchAgent 1.300034.0-amzn-0
-
Delta 4.0.0-amzn-0-spark
-
Iceberg 1.10.0-amzn-spark-0
-
Esta versión viene con Amazon Corretto 17 (basado en OpenJDK) de forma predeterminada para las aplicaciones compatibles con Corretto 17 (JDK 17).
-
-
Limitaciones de la versión preliminar: las siguientes funciones no están disponibles en esta versión preliminar:
-
Funciones interactivas y de integración: SageMaker Unified Studio, integración con EMR Studio, Spark Connect, Livy y JupyterEnterpriseGateway no son compatibles.
-
Formatos de tabla y control de acceso: Hudi, Delta Universal Format y el control de acceso detallado (FGAC) con filtrado a nivel de fila o columna y no se admiten operadores. DDL/DML
-
Conectores de datos: spark-sql-kinesis los conectores emr-dynamodb y spark-redshift no están disponibles.
-
Servidor de historial: el servidor de historial persistente de Spark no está disponible en esta versión preliminar. Los usuarios pueden seguir accediendo a la interfaz de usuario activa de Spark para supervisar y depurar las tareas activas sin servidor en tiempo real.
-
Características especializadas: las vistas materializadas no están disponibles.
-
-
Capacidades de vista previa: puede probar las siguientes capacidades en esta versión preliminar. Esta versión preliminar no se recomienda para cargas de trabajo de producción:
-
Características de SQL: modo ANSI SQL con un manejo de tipos más estricto, sintaxis SQL PIPE (|>) para operaciones de encadenamiento, tipo de datos VARIANT para datos JSON semiestructurados, secuencias de comandos SQL con sentencias de flujo de control y variables de sesión, y funciones SQL definidas por el usuario.
-
Mejoras en la transmisión: API de procesamiento arbitrario con estado, versión 2, con transformWithState operador, lector de fuentes de datos de estado para consultar el estado de la transmisión (experimental) y almacén de estados mejorado con puntos de control del registro de cambios de RockSDB mejorados.
-
Compatibilidad con formatos de tabla: Apache Iceberg v3 con compatibilidad con tipos de datos VARIANT, integración con tablas AWS S3 y acceso completo a las tablas (FTA) con AWS Lake Formation tablas Iceberg, Delta Lake y Hive.
-
-
Documentación adicional: para obtener documentación adicional sobre Apache Spark, consulte la documentación de la versión 4.0.1 de Apache
Spark.
Introducción
Para empezar con la versión preliminar de Apache Spark 4.0.1, cree una aplicación EMR Serverless mediante la CLI: AWS
aws emr-serverless create-application --type spark \ --release-label emr-spark-8.0-preview \ --region us-east-1 --name spark4-preview