Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Considérations et restrictions
Général
Passez en revue les limites suivantes lors de l'utilisation de Lake Formation avec EMR Serverless.
Note
Lorsque vous activez Lake Formation pour une tâche Spark sur EMR Serverless, la tâche lance un pilote système et un pilote utilisateur. Si vous avez spécifié une capacité préinitialisée au lancement, les pilotes sont fournis à partir de la capacité préinitialisée, et le nombre de pilotes système est égal au nombre de pilotes utilisateur que vous spécifiez. Si vous choisissez la capacité On Demand, EMR Serverless lance un pilote système en plus d'un pilote utilisateur. Pour estimer les coûts associés à votre projet EMR Serverless with Lake Formation, utilisez le. Calculateur de tarification AWS
-
Les applications compatibles avec Lake Formation ne prennent pas en charge l'utilisation d'images EMR personnalisées sans serveur.
-
Vous ne pouvez pas vous
DynamicResourceAllocationdésinscrire des jobs de Lake Formation. -
Vous ne pouvez utiliser Lake Formation qu’avec des tâches Spark.
-
EMR Serverless with Lake Formation ne prend en charge qu'une seule session Spark tout au long d'une tâche.
-
EMR Serverless with Lake Formation prend uniquement en charge les requêtes de table entre comptes partagées via des liens de ressources.
-
Les éléments suivants ne sont pas pris en charge :
-
Jeux de données distribués résilients (RDD)
-
Spark Streaming
-
Contrôle d’accès pour les colonnes imbriquées
-
-
EMR Serverless bloque les fonctionnalités susceptibles de compromettre l'isolation complète du pilote système, notamment les suivantes :
-
UDTs, Hive UDFs et toute fonction définie par l'utilisateur impliquant des classes personnalisées
-
Sources de données personnalisées
-
Fourniture de fichiers JAR supplémentaires pour l’extension, le connecteur ou le métastore Spark
-
Commande
ANALYZE TABLE
-
-
Si votre application EMR Serverless se trouve dans un sous-réseau privé doté de points de terminaison VPC pour Amazon S3 et que vous associez une politique de point de terminaison pour contrôler l'accès, avant que vos tâches puissent envoyer des données de journal à Amazon S3 AWS géré, incluez les autorisations détaillées dans Stockage géré dans votre politique VPC pour le point de terminaison de passerelle S3. Pour toute demande de dépannage, contactez AWS le support.
-
À partir d'Amazon EMR 7.9.0, Spark FGAC prend en charge le AFile système S3 lorsqu'il est utilisé avec le schéma s3a ://.
-
Amazon EMR 7.11 prend en charge la création de tables gérées à l'aide du CTAS.
-
Amazon EMR 7.12 prend en charge la création de tables gérées et externes à l'aide du CTAS.
Permissions
-
Pour renforcer les contrôles d'accès, les opérations EXPLAIN PLAN et DDL telles que DESCRIBE TABLE n'exposent pas d'informations restreintes.
-
Lorsque vous enregistrez l'emplacement d'une table auprès de Lake Formation, l'accès aux données utilise les informations d'identification stockées par Lake Formation au lieu des autorisations IAM du rôle d'exécution des tâches EMR Serverless. Les tâches échoueront si le rôle enregistré pour l'emplacement de la table est mal configuré, même si le rôle d'exécution dispose des autorisations IAM S3 pour cet emplacement.
-
À partir d'Amazon EMR 7.12, vous pouvez écrire dans des tables Hive et Iceberg existantes en utilisant DataFrameWriter (V2) avec les informations d'identification de Lake Formation en mode ajout. Pour les opérations de remplacement ou lors de la création de nouvelles tables, EMR utilise les informations d'identification du rôle d'exécution pour modifier les données des tables.
-
Les limitations suivantes s'appliquent lors de l'utilisation de vues ou de tables mises en cache comme données source (ces limitations ne s'appliquent pas aux vues du catalogue de données AWS Glue) :
-
Pour les opérations MERGE, DELETE et UPDATE
-
Supporté : utilisation de vues et de tables mises en cache comme tables sources.
-
Non pris en charge : utilisation de vues et de tables mises en cache dans les clauses d'affectation et de condition.
-
-
Pour les opérations CREATE OR REPLACE et REPLACE TABLE AS SELECT :
-
Non pris en charge : utilisation de vues et de tables mises en cache comme tables sources.
-
-
-
Les tables Delta Lake contenant des données source prennent UDFs en charge les opérations MERGE, DELETE et UPDATE uniquement lorsque le vecteur de suppression est activé.
Journaux et débogage
-
EMR Serverless restreint l'accès aux journaux Spark du pilote système sur les applications compatibles avec Lake Formation. Étant donné que le pilote système fonctionne avec des autorisations élevées, les événements et les journaux générés par le pilote système peuvent inclure des informations sensibles. Pour empêcher les utilisateurs ou le code non autorisés d'accéder à ces données sensibles, EMR Serverless désactive l'accès aux journaux des pilotes du système.
-
Les journaux des profils système sont toujours conservés dans le stockage géré. Il s'agit d'un paramètre obligatoire qui ne peut pas être désactivé. Ces journaux sont stockés de manière sécurisée et chiffrés à l'aide d'une clé KMS gérée par le client ou d'une clé KMS AWS gérée.
Iceberg
Prenez en compte les points suivants lors de l'utilisation d'Apache Iceberg :
-
Vous ne pouvez utiliser Apache Iceberg qu’avec un catalogue de sessions et non avec des catalogues nommés arbitrairement.
-
Les tables Iceberg enregistrées dans Lake Formation ne prennent en charge que les tables de métadonnées
historymetadata_log_entries,snapshots,,filesmanifests, etrefs. Amazon EMR masque les colonnes susceptibles de contenir des données sensibles, telles quepartitionspath, et.summariesCette restriction ne s’applique pas aux tables Iceberg qui ne sont pas enregistrées dans Lake Formation. -
Les tables qui ne sont pas enregistrées dans Lake Formation prennent en charge toutes les procédures stockées par Iceberg. Les procédures
register_tableetmigratene sont prises en charge pour aucune table. -
Nous vous conseillons d'utiliser Iceberg DataFrameWriter V2 au lieu de V1.