SageMaker Lakehouse mit S3-Speicher Amazon-S3-Tables-Ziel SageMaker Lakehouse mit Speicher Amazon Redshift Amazon Redshift Data Warehouse-Ziel Konfigurieren des Integrationsziels

Konfigurieren eines Null-ETL-Integrationsziels

AWS Bei der Konfiguration eines Ziels für eine Zero-ETL-Integration stehen mehrere Optionen zur Verfügung. Das Ziel kann ein verschlüsseltes Amazon Redshift Data Warehouse oder ein Amazon SageMaker Lakehouse-Katalog sein.

Bevor Sie das Ziel für die Null-ETL-Integration auswählen, müssen Sie eine der folgenden Zielressourcen konfigurieren.

Folgende sind Konfigurationsoptionen für ein Ziel in einer Null-ETL-Integration:

Ein Amazon SageMaker Lakehouse-Katalog und eine Datenbank, die mit regulärem Amazon S3 S3-Speicher konfiguriert sind. Siehe Konfiguration eines Amazon SageMaker Lakehouse-Katalogs mit regulärem S3-Speicher.
Ein Amazon SageMaker Lakehouse-Katalog, der mit dem Amazon S3 Tables-Bucket konfiguriert ist. Siehe Konfigurieren von Amazon S3 Tables als Ziel.
Ein Amazon SageMaker Lakehouse-Katalog, der mit Amazon Redshift verwaltetem Speicher konfiguriert ist. Siehe Konfiguration eines Amazon SageMaker Lakehouse-Katalogs mit Amazon Redshift verwaltetem Speicher.
Ein Amazon-Redshift-Data-Warehouse, das durch einen Redshift-Namespace identifiziert wird. Siehe Konfiguration eines Amazon Redshift Data Warehouse-Ziels.

Anmerkung

Sie können das Ziel einer Null-ETL-Integration nach der Erstellung nicht ändern.

Konfiguration eines Amazon SageMaker Lakehouse-Katalogs mit regulärem S3-Speicher

In diesem Abschnitt werden die Voraussetzungen und Einrichtungsschritte für die Konfiguration eines regulären Amazon S3 S3-Buckets als Speicher für Ihr Amazon SageMaker Lakehouse-Katalogziel in einer Zero-ETL-Integration beschrieben.

Voraussetzungen für das Einrichten einer Integration

Bevor Sie eine Zero-ETL-Integration mit einem Amazon SageMaker Lakehouse-Katalog unter Verwendung von normalem S3-Speicher erstellen, müssen Sie die folgenden Einrichtungsaufgaben ausführen:

Richten Sie eine Datenbank ein AWS Glue
Geben Sie die RBAC-Richtlinie für den Katalog an.
Erstellen einer IAM-Zielrolle

Nachdem Sie den Amazon SageMaker Lakehouse-Katalog mit regulärem Amazon S3 S3-Speicher konfiguriert haben, können Sie mit Konfigurieren der Integration mit Ihrem Ziel dem Abschluss der Integrationseinrichtung fortfahren.

Konfigurieren von Amazon S3 Tables als Ziel

In diesem Abschnitt werden die Voraussetzungen und Einrichtungsschritte für die Konfiguration von Amazon S3 Tables als Ziel für Ihre Null-ETL-Integration beschrieben.

Voraussetzungen für das Einrichten einer Integration

Bevor Sie eine Null-ETL-Integration mit Amazon S3 Tables als Ziel erstellen, müssen Sie die folgenden Einrichtungsschritte durchführen:

Richten Sie einen Amazon-S3-Tables-Bucket ein.
Geben Sie die RBAC-Richtlinie für den Katalog an.
Erstellen einer IAM-Zielrolle

Richten Sie einen Amazon-S3-Tables-Bucket ein.

Erstellen Sie einen Amazon-S3-Tables-Bucket in Ihrem Konto, indem Sie den Anweisungen unter Erste Schritte mit Amazon S3 Tables folgen.
Aktivieren Sie Analytics-Integrationen mit Ihrem S3-Table-Bucket, indem Sie diese Anweisungen befolgen: AWS Services in Amazon S3 S3-Tabellen integrieren.

Geben Sie die RBAC-Richtlinie für den Katalog an.

Die folgenden Berechtigungen müssen der RBAC-Richtlinie für den Katalog hinzugefügt werden, um Integrationen zwischen der Quelle und dem Amazon-S3-Tables-Katalogziel zu ermöglichen.

Die Ressourcenrichtlinie für den AWS Glue Zielkatalog muss Glue Service-Berechtigungen für enthalten AuthorizeInboundIntegration. Darüber hinaus sind CreateInboundIntegration Berechtigungen entweder für den Quellprinzipal, der die Integration erstellt, oder für die AWS Glue Zielressourcenrichtlinie erforderlich.

Anmerkung

Für ein kontenübergreifendes Szenario müssen sowohl die Quellprinzipal- als auch die AWS Glue Zielkatalog-Ressourcenrichtlinie Glue: CreateInboundIntegration -Berechtigungen für die Ressource enthalten.

Anmerkung

Ersetzen Sie <s3tablescatalog> durch den Katalognamen Ihrer S3-Tabellen.

Erstellen einer IAM-Zielrolle

Erstellen Sie eine IAM-Zielrolle mit den folgenden Berechtigungen und Vertrauensstellungen:

Beispiel für eine IAM-Richtlinie:

Fügen Sie der Target-IAM-Rolle die folgende Vertrauensrichtlinie hinzu, damit der AWS Glue Service sie übernehmen kann:

Anmerkung

In der S3-Tables-Bucket-Ressourcenrichtlinie darf keine explizite DENY-Anweisung für diese IAM-Zielrolle vorhanden sein. Eine explizite DENY-Anweisung würde alle ALLOW-Berechtigungen außer Kraft setzen und verhindern, dass die Integration ordnungsgemäß funktioniert.

Konfiguration eines Amazon SageMaker Lakehouse-Katalogs mit Amazon Redshift verwaltetem Speicher

In diesem Abschnitt werden die Voraussetzungen und Einrichtungsschritte für die Konfiguration eines Amazon SageMaker Lakehouse-Katalogs mit Amazon Redshift verwaltetem Speicher (RMS) als Ziel für Ihre Zero-ETL-Integration beschrieben.

Voraussetzungen für das Einrichten einer Integration

Bevor Sie eine Zero-ETL-Integration mit einem Amazon SageMaker Lakehouse-Katalog mithilfe von Redshift Managed Storage erstellen, müssen Sie die folgenden Einrichtungsaufgaben ausführen:

Richten Sie einen Cluster oder eine serverlose Arbeitsgruppe ein Amazon Redshift
Registrieren Sie die Amazon Redshift Integration mit Lake Formation
Erstellen Sie einen verwalteten Katalog in Lake Formation.
Konfigurieren Sie die IAM-Berechtigungen.

Amazon Redshift Verwalteten Speicher einrichten

So richten Sie Amazon Redshift verwalteten Speicher für Ihre Zero-ETL-Integration ein:

Erstellen oder verwenden Sie einen vorhandenen Amazon-Redshift-Cluster oder eine Serverless-Arbeitsgruppe. Stellen Sie sicher, dass in der Amazon Redshift Zielarbeitsgruppe oder dem Zielcluster der enable_case_sensitive_identifier Parameter aktiviert ist, damit die Integration erfolgreich ist. Weitere Informationen zum Aktivieren der Unterscheidung zwischen Groß- und Kleinschreibung finden Sie unter Aktivieren der Unterscheidung zwischen Groß- und Kleinschreibung für Ihr Data Warehouse im Amazon-Redshift-Managementleitfaden.
Registrieren Sie eine Integration von Redshift in den Katalog in AWS Lake Formation. Weitere Informationen finden Sie unter Registrierung von Amazon Redshift Clustern und Namespaces im Datenkatalog. AWS Glue
Erstellen Sie einen föderierten oder verwalteten Katalog in. AWS Lake Formation Weitere Informationen finden Sie unter:
- Amazon Redshift Daten in den AWS Glue Datenkatalog aufnehmen
- Einen Amazon Redshift verwalteten Katalog im AWS Glue Datenkatalog erstellen
Konfigurieren Sie IAM-Berechtigungen für die Zielrolle. Die Rolle benötigt Berechtigungen für den Zugriff auf Redshift- und Lake-Formation-Ressourcen. Die Rolle sollte mindestens Folgendes aufweisen:
- Berechtigungen für den Zugriff auf den Redshift-Cluster oder die Arbeitsgruppe
- Berechtigungen für den Zugriff auf den Lake-Formation-Katalog
- Berechtigungen zum Erstellen von Tabellen und Verwalten von Tabellen im Katalog
- CloudWatch und CloudWatch protokolliert Berechtigungen für die Überwachung

Nachdem Sie den Amazon SageMaker Lakehouse-Katalog mit verwaltetem Amazon Redshift Redshift-Speicher konfiguriert haben, können Sie mit Konfigurieren der Integration mit Ihrem Ziel dem Abschluss der Integrationseinrichtung fortfahren.

Konfiguration eines Amazon Redshift Data Warehouse-Ziels

In diesem Abschnitt werden die Voraussetzungen und Einrichtungsschritte für die Konfiguration eines Amazon Redshift Data Warehouse als Ziel für Ihre Zero-ETL-Integration beschrieben.

Voraussetzungen für das Einrichten einer Integration

Bevor Sie eine Zero-ETL-Integration mit einem Amazon Redshift Data Warehouse-Ziel erstellen, müssen Sie die folgenden Einrichtungsaufgaben ausführen:

Richten Sie einen Amazon Redshift Cluster oder eine serverlose Arbeitsgruppe ein
Richten Sie die Unterscheidung zwischen Groß- und Kleinschreibung ein.
Konfigurieren Sie die IAM-Berechtigungen.

Das Data Warehouse einrichten Amazon Redshift

So richten Sie ein Amazon Redshift Data Warehouse für Ihre Zero-ETL-Integration ein:

Navigieren Sie zur Amazon Redshift -Konsole und klicken Sie auf Cluster erstellen oder verwenden Sie einen vorhandenen Cluster. Für eine Amazon-Redshift-Serverless-Arbeitsgruppe klicken Sie auf Arbeitsgruppe erstellen.
Wenn Sie einen neuen Cluster erstellen, wählen Sie eine geeignete Clustergröße und stellen Sie sicher, dass Ihr Cluster verschlüsselt ist. Konfigurieren Sie für Serverless die Arbeitsgruppeneinstellungen entsprechend Ihren Anforderungen.
Stellen Sie sicher, dass in der Amazon Redshift Zielarbeitsgruppe oder dem Zielcluster der enable_case_sensitive_identifier Parameter aktiviert ist, damit die Integration erfolgreich ist. Weitere Informationen zum Aktivieren der Unterscheidung zwischen Groß- und Kleinschreibung finden Sie unter Aktivieren der Unterscheidung zwischen Groß- und Kleinschreibung für Ihr Data Warehouse im Amazon-Redshift-Managementleitfaden.
Konfigurieren Sie IAM-Berechtigungen, damit die Zero-ETL-Integration auf Ihr Data Warehouse zugreifen kann. Amazon Redshift Sie müssen eine IAM-Rolle mit den folgenden Berechtigungen erstellen:
- Berechtigungen für den Zugriff auf den Cluster oder die Arbeitsgruppe Amazon Redshift
- Berechtigungen zum Erstellen und Verwalten von Datenbanken und Tabellen in Amazon Redshift
- CloudWatch und Amazon CloudWatch protokolliert die Berechtigungen für die Überwachung
Nachdem die Amazon Redshift Arbeitsgruppen- oder Clustereinrichtung abgeschlossen ist, müssen Sie Ihr Data Warehouse für Zero-ETL-Integrationen konfigurieren. Weitere Informationen finden Sie im Amazon–Redshift-Managementleitfaden unter Erste Schritte mit Null-ETL-Integrationen.

Anmerkung

Wenn Sie ein Amazon Redshift Data Warehouse als Ziel verwenden, erstellt die Integration ein Schema in der angegebenen Datenbank, um die replizierten Daten zu speichern. Der Schemaname wird vom Integrationsnamen abgeleitet.

Nachdem Sie das Amazon Redshift Data Warehouse konfiguriert haben, können Sie mit Konfigurieren der Integration mit Ihrem Ziel dem Abschluss der Integrationseinrichtung fortfahren.

Konfigurieren der Integration mit Ihrem Ziel

Nachdem Sie Ihre Zielressourcen konfiguriert, Ihre Verbindung ausgewählt und eine Quell-IAM-Rolle angegeben haben, gehen Sie wie folgt vor, um die Einrichtung der Integration abzuschließen:

Geben Sie das Ziel an, das Sie in den vorherigen Schritten konfiguriert haben.
Wählen Sie die Option AWS Glue Repariere es für mich. Für das Amazon Redshift Ziel wird dies:
- Wenden Sie einen autorisierten Dienstprinzipal auf den Amazon Redshift Cluster oder die serverlose Arbeitsgruppe an.
- Wenden Sie einen autorisierten AWS Glue Quell-ARN auf den Amazon Redshift Cluster oder die serverlose Arbeitsgruppe an.
- Verknüpfen Sie eine neue Parametergruppe mit enable_case_sensitive_identifier = true.
Geben Sie den Namen der Integration ein und wählen Sie Integration erstellen und starten.
Sobald sich Ihre Integration im aktiven Status befindet, navigieren Sie zur Seite mit den Integrationsdetails und wählen Sie Datenbank aus Integration erstellen aus.
Schließlich können Sie zum Redshift-Abfrage-Editor navigieren und eine Verbindung zu Ihrer Datenbank herstellen, um den Snapshot und die inkrementellen Daten zu validieren.

Anmerkung

Sie können im Namespace- oder Katalognamen nur alphanumerische Kleinbuchstaben und Unterstriche verwenden. Dies unterscheidet sich von dem, was der AWS Glue Datenkatalog ermöglicht, eine Datenbank mit einem beliebigen Namen (einschließlich Sonderzeichen) zu erstellen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Felder werden nicht unterstützt ServiceNow

Partitionierung und Aufheben von Schemaverschachtelungen