General Permisos Registros y depuración Iceberg

Consideraciones y limitaciones

General

Revise las siguientes limitaciones al usar Lake Formation con EMR Serverless.

nota

Al habilitar Lake Formation para un trabajo de Spark en EMR sin servidor, el trabajo lanza un controlador de sistema y un controlador de usuario. Si especificó la capacidad preinicializada en el momento del lanzamiento, los controladores se aprovisionarán a partir de la capacidad preinicializada y el número de controladores del sistema será igual al número de controladores de usuario que especifique. Si elige la capacidad bajo demanda, EMR sin servidor lanza un controlador de sistema además de un controlador de usuario. Para calcular los costes asociados a su trabajo de EMR sin servidor con Lake Formation, utilice Calculadora de precios de AWS.

Amazon EMR sin servidor con Lake Formation está disponible en todas las regiones compatibles con EMR sin servidor.

Formation-enabled Las aplicaciones de Lake no admiten el uso de imágenes EMR Serverless personalizadas.
No puede desactivar DynamicResourceAllocation para los trabajos de Lake Formation.
Solo puede utilizar Lake Formation con trabajos de Spark.
EMR sin servidor con Lake Formation solo admite una única sesión de Spark durante un trabajo.
EMR sin servidor con Lake Formation solo admite consultas de tablas entre cuentas compartidas a través de enlaces de recursos.
Lo siguiente no es compatible:
- Conjuntos de datos distribuidos resilientes (RDD)
- Streaming de Spark
- Control de acceso para columnas anidadas
EMR sin servidor bloquea aquellas funcionalidades que podrían socavar el aislamiento total del controlador del sistema, incluidas las siguientes:
- UDT, HiveUDFS y cualquier función definida por el usuario que incluya clases personalizadas
- Orígenes de datos personalizados
- Suministro de archivos jar adicionales para la extensión, el conector o el metaalmacén de Spark
- ANALYZE TABLE command
Si su aplicación EMR Serverless se encuentra en una subred privada con puntos de enlace de VPC para Amazon S3 y adjunta una política de puntos de enlace para controlar el acceso, antes de que sus trabajos puedan enviar datos de registro a Amazon S3 gestionado, incluya los permisos detallados en Almacenamiento AWS gestionado en su política de VPC al punto de enlace de puerta de enlace S3. Para solicitudes de solución de problemas, póngase en contacto con el servicio de asistencia AWS
A partir de Amazon EMR 7.9.0, Spark FGAC es compatible S3AFileSystem cuando se usa con el esquema s3a://.
Amazon EMR 7.11 admite la creación de tablas administradas mediante CTAS.
Amazon EMR 7.12 admite la creación de tablas administradas y externas mediante CTAS.
A partir de Amazon EMR 7.12, las operaciones de DML y DDL que modifican los datos de las tablas utilizan las credenciales de Lake Formation. En Amazon EMR 7.11 y versiones anteriores, estas operaciones (excepto DELETE, UPDATE y MERGE) utilizan las credenciales del rol de ejecución de tareas para modificar los datos de la tabla. Amazon EMR 7.11 y las versiones anteriores no admiten las operaciones DELETE, UPDATE y MERGE.
Las operaciones DDL y DML que modifican los datos de la tabla con las Formation-vended credenciales de AWS Lake solo admiten el S3A. Cuando se utiliza EMRFS, en su lugar se aplican las credenciales del rol de ejecución del trabajo.
EMR Serverless with Lake Formation no admite la lectura ni la escritura en tablas que apuntan a una ubicación que no sea S3.

Permisos

Para reforzar los controles de acceso, las operaciones EXPLAIN PLAN y DDL, como DESCRIBE TABLE, no exponen información restringida.
Al registrar la ubicación de una tabla en Lake Formation, el acceso a los datos utiliza las credenciales almacenadas de Lake Formation en lugar de los permisos de IAM del rol de ejecución de tareas EMR Serverless. Los trabajos fallarán si el rol registrado para la ubicación de la tabla está mal configurado, incluso cuando el rol en tiempo de ejecución tenga permisos de IAM de S3 para esa ubicación.
A partir de Amazon EMR 7.12, puede escribir en las tablas Hive e Iceberg existentes utilizando DataFrameWriter (V2) con las credenciales de Lake Formation en modo de adición. Para las operaciones de sobrescritura o al crear nuevas tablas, EMR utiliza las credenciales del rol en tiempo de ejecución para modificar los datos de la tabla.
Se aplican las siguientes limitaciones cuando se utilizan vistas o tablas en caché como datos de origen (estas limitaciones no se aplican a las vistas del catálogo de datos de AWS Glue):
- Para las operaciones de FUSIÓN, ELIMINACIÓN y ACTUALIZACIÓN
  - Compatible: uso de vistas y tablas almacenadas en caché como tablas de origen.
  - No se admite: usar vistas y tablas almacenadas en caché en las cláusulas de asignación y condición.
- Para las operaciones CREATE OR REPLACE y REPLACE TABLE AS SELECT:
  - No se admite: usar vistas y tablas almacenadas en caché como tablas de origen.
Las tablas de Delta Lake con UDF en los datos de origen admiten las operaciones MERGE, DELETE y UPDATE solo cuando el vector de eliminación está habilitado.

Registros y depuración

EMR Serverless restringe el acceso a los registros de Spark del controlador del sistema en las aplicaciones de Lake. Formation-enabled Dado que el controlador del sistema se ejecuta permisos elevados, los eventos y registros que genera el controlador del sistema pueden incluir información confidencial. Para evitar que usuarios o códigos no autorizados accedan a esta información confidencial, EMR sin servidor deshabilita el acceso a los registros de los controladores del sistema.
Los registros de los perfiles del sistema siempre se conservan en el almacenamiento administrado; esta es una configuración obligatoria que no se puede deshabilitar. Estos registros se almacenan de forma segura y se cifran mediante una clave de KMS gestionada por el cliente o una clave de KMS AWS gestionada.

Iceberg

Tenga en cuenta las siguientes consideraciones al utilizar Apache Iceberg:

Solo puede usar Apache Iceberg con el catálogo de sesiones y no con catálogos con nombres arbitrarios.
Las tablas de Iceberg que están registradas en Lake Formation solo admiten las tablas de metadatos history, metadata_log_entries, snapshots, files, manifests y refs. Amazon EMR oculta las columnas que pueden contener datos confidenciales, como partitions, path y summaries. Esta limitación no se aplica a las tablas de Iceberg que no estén registradas en Lake Formation.
Las tablas que no están registradas en Lake Formation admiten todos los procedimientos almacenados por Iceberg. Los procedimientos register_table y migrate no son compatibles con ninguna tabla.
Le sugerimos que utilice Iceberg DataFrameWriterV2 en lugar de V1.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Open-table soporte de formatos

Resolución de problemas