Quand utiliser la réplication des tables S3 Caractéristiques

Réplication de tables S3

Les tables Amazon S3 prennent en charge la réplication automatique des tables Apache Iceberg stockées dans des compartiments de tables Amazon S3. Les destinations de réplication peuvent se trouver dans la même AWS région, dans plusieurs AWS régions, sur le même compte ou vers d'autres AWS comptes. En configurant la réplication de vos tables, vous pouvez conserver des répliques en lecture seule de vos données sur plusieurs emplacements. Vous pouvez utiliser des répliques pour améliorer la disponibilité des données, répondre aux exigences de conformité et améliorer les performances d'accès pour les applications distribuées.

La réplication des tables S3 préserve la cohérence des données en validant toutes les mises à jour des tables, y compris les instantanés, les métadonnées et les fichiers de données, dans la table de destination dans le même ordre que la table source.

Quand utiliser la réplication des tables S3

Vous pouvez utiliser la réplication des tables S3 aux fins suivantes :

Minimiser le temps de latence : si vos clients se trouvent dans deux zones géographiques, vous pouvez minimiser le temps de latence lors de l'accès aux tables en conservant des répliques de lecture dans AWS les régions géographiquement les plus proches de vos utilisateurs.
Conformité réglementaire : vous pouvez conserver des répliques de lecture dans des zones géographiques ou des AWS comptes spécifiques, ce qui peut vous aider à respecter certaines exigences réglementaires ou de conformité. Vous pouvez configurer le compartiment de table de destination de la réplication pour chiffrer les tables avec des clés AWS KMS différentes de celles de la source.
Analyses centralisées : si vos données sont réparties dans plusieurs AWS régions, vous pouvez répliquer des Region-specific ensembles de données dans une région centralisée pour des rapports unifiés, une analyse entre régions et une formation aux modèles d'apprentissage automatique. Il n'est donc plus nécessaire d'effectuer des requêtes entre les régions ou de créer des pipelines d'agrégation de données personnalisés.
Environnements de test et de développement : vous pouvez créer des répliques en lecture des tables de production dans des compartiments séparés Comptes AWS ou dans des compartiments de tables afin de fournir des données de test réalistes aux équipes de développement et d'assurance qualité. Cela permet d'isoler les charges de travail de test des systèmes de production tout en garantissant que les environnements de test disposent de données actuelles, similaires à celles de la production, sans exportations manuelles ni processus de synchronisation des données.

Caractéristiques

La réplication des tables S3 offre les fonctionnalités suivantes.

Read-only répliques pour tables S3

La réplication de tables S3 crée des répliques en lecture seule de vos tables Apache Iceberg dans des compartiments de tables. Vous pouvez interroger les répliques indépendamment à l'aide de n'importe quel Iceberg-compatible moteur.

Répliques maintenues automatiquement

Le service de réplication de tables S3 gère automatiquement les tables de réplication. La réplication met généralement à jour les répliques quelques minutes après la mise à jour de la source. S3 Tables valide toutes les mises à jour dans le même ordre que la table source pour garantir la cohérence.

Réplication vers plusieurs destinations

Vous pouvez répliquer la même table vers plusieurs compartiments de table de destination. Les destinations de réplication peuvent se trouver dans le même compte Région AWS Régions AWS, sur plusieurs comptes, dans le même AWS compte ou dans d'autres AWS comptes.

Conservation indépendante des instantanés

L'expiration des instantanés pour les tables de réplication est indépendante de la table source, ce qui vous permet de définir différentes périodes de conservation sur les tables de réplication si nécessaire. Par exemple, vous pouvez configurer votre table source pour conserver les instantanés pendant 30 jours tout en définissant une période de conservation de 90 jours pour les tables de réplication. Si vous configurez une période de conservation plus longue pour les répliques, les instantanés qui expirent à la source restent disponibles et interrogeables dans les répliques. Cette configuration fournit des fonctionnalités de voyage dans le temps étendues pour l'analyse historique.

Gérez les tables de réplication dans des niveaux de stockage moins coûteux

Vous pouvez configurer des compartiments de table de destination pour utiliser la classe de Intelligent-Tiering stockage S3, qui optimise automatiquement les coûts de stockage en fonction des modèles d'accès, sans impact sur les performances ni surcharge opérationnelle. S3 Intelligent-Tiering convient parfaitement aux tables de réplication auxquelles il est possible d'accéder moins fréquemment.

Pour plus d'informations sur la réplication des tables S3, consultez les rubriques suivantes.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation d'Apache Iceberg V3

Comment fonctionne la réplication des tables S3