Überlegungen und Einschränkungen S3-Tabellen von Athena abfragen S3-Tabellen in Athena erstellen S3-Tabellen-Bucket-Kataloge als Athena-Datenquellen registrieren CTAS für S3-Tabellen

Registrieren Sie Bucket-Kataloge von S3-Tabellen und fragen Sie Tabellen von Athena ab

Tabellen-Buckets für Amazon S3 sind ein Bucket-Typ in Amazon S3, der speziell zum Speichern von Tabellendaten in Apache-Iceberg-Tabellen entwickelt wurde. Tabellen-Buckets automatisieren Tabellenverwaltungsaufgaben wie Komprimierung, Snapshot-Verwaltung und Garbage Collection, um die Abfrageleistung kontinuierlich zu optimieren und die Kosten zu minimieren. Egal, ob Sie gerade erst anfangen oder Tausende von Tabellen in Ihrer Iceberg-Umgebung haben, Tabellen-Buckets vereinfachen Data Lakes in jeder Größenordnung. Weitere Informationen finden Sie unter Tabellen-Buckets.

Überlegungen und Einschränkungen

Alle DDL-Operationen, die für Iceberg-Tabellen unterstützt werden, werden für S3-Tabellen unterstützt, mit den folgenden Ausnahmen:
- ALTER TABLE RENAME, CREATE VIEW und ALTER DATABASE werden nicht unterstützt.
- OPTIMIZE und VACUUM – Sie können die Komprimierung und die Snapshot-Verwaltung in S3 verwalten. Weitere Informationen finden Sie unter Wartungsdokumentation für S3-Tabellen.
DDL-Abfragen auf S3-Tabellen, die als Athena-Datenquellen registriert sind, werden nicht unterstützt.
In Arbeitsgruppen mit SSE-KMS aktivierter CSE-KMS Verschlüsselung können Sie keine Schreibvorgänge wieINSERT, UPDATEDELETE, oder MERGE auf S3-Tabellen ausführen.
In Arbeitsgruppen, in denen die Option „Zahlung durch den S3-Anforderer“ aktiviert ist, können Sie keine DML-Operationen für S3-Tabellen ausführen.

S3-Tabellen von Athena abfragen

Diese erforderlichen Schritte vor der Arbfrage von S3-Tabellen in Athena ausführen

Erstellen eines S3-Tabellen-Buckets. Weitere Informationen erhalten Sie unter Erstellen eines Buckets im Benutzerhandbuch für Amazon Simple Storage Service.
Stellen Sie sicher, dass die Integration Ihrer Tabellen-Buckets mit erfolgreich AWS Glue Data Catalog ist. Informationen zu den erforderlichen Berechtigungen und Einrichtungsschritten finden Sie unter Voraussetzungen für die Integration von S3 Tables und Aktivieren der Integration von S3 Tables mit Glue Data Catalog im AWS Glue Entwicklerhandbuch.
Erteilen Sie für den Prinzipal, den Sie zum Ausführen von Abfragen mit Athena verwenden, Berechtigungen für den S3-Tabellenkatalog mit einem der folgenden Ansätze:

Option 1: Verwenden Sie IAM-Berechtigungen

Wenn Sie die IAM-Zugriffskontrolle verwenden, benötigt Ihr Principal Berechtigungen sowohl für AWS Glue Data Catalog Ressourcen als auch für Amazon S3 Tables-Ressourcen.

Die folgende Liste enthält alle s3tables Berechtigungen, die für die Ausführung unterstützter DDL- oder DML-Operationen für Ihre S3-Tabellen in Athena erforderlich sind:
- s3tables:GetTableBucket
- s3tables:GetNamespace
- s3tables:GetTable
- s3tables:GetTableData
- s3tables:PutTableData
- s3tables:ListNamespaces
- s3tables:ListTables
- s3tables:DeleteNamespace
- s3tables:DeleteTable
- s3tables:CreateNamespace
- s3tables:CreateTable
- s3tables:UpdateTableMetadataLocation
Wenden Sie diese Berechtigungen auf bestimmte S3-Tabellen-Bucket- und S3-Tabellenressourcen an oder verwenden Sie * sie als Ressource, um Zugriff auf alle Tabellen-Buckets und Tabellen in Ihrem Konto zu gewähren. Diese Berechtigungen können mit der AmazonAthenaFullAccessverwalteten Richtlinie kombiniert werden, um die vollständige Funktionalität zu ermöglichen.

Option 2: Verwenden Sie Lake Formation Formation-Berechtigungen

Um eine differenzierte Zugriffskontrolle zu ermöglichen, können Sie Lake Formation Formation-Berechtigungen für den S3-Tabellenkatalog gewähren, entweder über die Lake Formation Formation-Konsole oder. AWS CLI Dazu müssen Sie Ihre S3-Tabellen-Buckets als Lake Formation Formation-Datenstandort registrieren. Weitere Informationen finden Sie unter Erstellen eines Amazon S3 S3-Tables-Katalogs AWS Glue Data Catalog im Lake Formation Developer Guide.
AWS Management Console
Öffnen Sie die AWS Lake Formation Konsole unter https://console.aws.amazon.com/lakeformation/ und melden Sie sich als Data Lake-Administrator an. Weitere Informationen zum Erstellen eines Data-Lake-Administrators finden Sie unter Create a data lake administrator (Data-Lake-Administrator erstellen).

Wählen Sie im Navigationsbereich Data permissions (Datenberechtigungen) und dann Grant (Erteilen) aus.

Wählen Sie auf der Seite Berechtigungen erteilen unter Princizale den Prinzipal aus, den Sie verwenden möchten, um eine Anfrage von Athena einzureichen.

Wählen Sie unter Ressourcen LF-Tags oder katalogisieren die Option Benannte Datenkatalogressourcen aus.

Wählen Sie für Catalogs (Kataloge) einen Glue-Datenkatalog, den Sie im Rahmen der Integration Ihres Tabellen-Buckets erstellt haben. Zum Beispiel :s3tablescatalog/<accoundID>. amzn-s3-demo-bucket

Wählen Sie für Katalogberechtigungen die Option Super aus.

Wählen Sie Grant (Erteilen).
AWS CLI
Führen Sie den folgenden Befehl mit der Data Lake-Administratorrolle für Lake Formation aus, um Zugriff auf den Prinzipal zu gewähren, den Sie zum Einreichen von Abfragen von Athena verwenden.
```
aws lakeformation grant-permissions \
--region <region (Example,us-east-1)> \
--cli-input-json \
'{
    "Principal": {
        "DataLakePrincipalIdentifier": "<user or role ARN (Example, arn:aws:iam::<Account ID>:role/ExampleRole>"
    },
    "Resource": {
        "Catalog": {
            "Id":"<Account ID>:s3tablescatalog/amzn-s3-demo-bucket"
        }
    },
    "Permissions": ["ALL"]
}'
```

Abfragen für S3-Tabellen einreichen

Reichen Sie eine CREATE DATABASE Anfrage von Athena ein, wobei die oben genannten Bedingungen gewährt wurden user/role. In diesem Beispiel ist s3tablescatalog der übergeordnete Glue-Datenkatalog erstellt aus der Integration und s3tablescatalog/amzn-s3-demo-bucket ist der untergeordnete Glue-Datenkatalog, der für jeden S3-Tabellen-Bucket erstellt wurde. Es gibt zwei Möglichkeiten, Abfragen durchzuführen.
Option 1
Geben Sie den untergeordneten Glue-Datenkatalog (s3tablescatalog/amzn-s3-demo-bucket) direkt von der Konsole aus an oder AWS CLI.

Verwenden AWS Management Console
Öffnen Sie die Athena-Konsole unter https://console.aws.amazon.com/athena/.

Wählen Sie in der linken Navigationsleiste für Datenquellenname die Option AwsDataCatalog.

Wählen Sie für Catalog die Option amzn-s3-demo-buckets3tablescatalog/ aus.

Geben Sie im Abfrage-Editor eine Abfrage ein wie CREATE DATABASE test_namespace.
Verwenden AWS CLI

Führen Sie den folgenden Befehl aus.
```
aws athena start-query-execution \ 
--query-string 'CREATE DATABASE `test_namespace`' \ 
--query-execution-context '{"Catalog": "s3tablescatalog/amzn-s3-demo-bucket"}' \
--work-group "primary"
```
Option 2

Erstellen Sie den Athena-Datenkatalog aus dem untergeordneten Glue-Datenkatalog in der Athena-Konsole und geben Sie ihn als Katalog in der Abfrage an. Weitere Informationen finden Sie unter S3-Tabellen-Bucket-Kataloge als Athena-Datenquellen registrieren.
Verwenden Sie die Datenbank, die Sie im vorherigen Schritt erstellt haben, und erstellen Sie mit CREATE TABLE eine Tabelle. Das folgende Beispiel erstellt eine Tabelle in der test_namespace-Datenbank, die Sie zuvor im s3tablescatalog/amzn-s3-demo-bucket-Glue-Katalog erstellt haben.
AWS Management Console
Wählen Sie in der linken Navigationsleiste für Datenquellenname die Option AwsDataCatalog.

Wählen Sie für Catalog die Option amzn-s3-demo-buckets3tablescatalog/ aus.

Wählen Sie für Datenbank die Option test_namespace aus.

Führen Sie im Abfrage-Editor die folgende Abfrage aus.

CREATE TABLE daily_sales ( sale_date date, product_category string, sales_amount double) PARTITIONED BY (month(sale_date)) TBLPROPERTIES ('table_type' = 'iceberg')
AWS CLI
Führen Sie den folgenden Befehl aus.
```
aws athena start-query-execution \
--query-string "CREATE TABLE daily_sales (
        sale_date date,
        product_category
        string, sales_amount double)
PARTITIONED BY (month(sale_date))
TBLPROPERTIES ('table_type' = 'iceberg')" \
--query-execution-context '{"Catalog": "s3tablescatalog/amzn-s3-demo-bucket", "Database":"test_namespace"}' \
--work-group "primary"
```

Fügen Sie Daten in die Tabelle ein, die Sie im vorherigen Schritt erstellt haben.

Nachdem Sie Daten in die Tabelle eingefügt haben, können Sie sie abfragen.

S3-Tabellen in Athena erstellen

Athena unterstützt das Erstellen von Tabellen in vorhandenen S3-Tabellen-Namespaces oder in Athena erstellten Namespaces mit CREATE DATABASE-Anweisungen. Um eine S3-Tabelle aus Athena zu erstellen, ist die Syntax dieselbe wie beim Erstellen einer regulären Iceberg-Tabelle, außer dass Sie LOCATION nicht angeben, wie im folgenden Beispiel gezeigt.


CREATE TABLE
[db_name.]table_name (col_name data_type [COMMENT col_comment] [, ...] )
[PARTITIONED BY (col_name | transform, ... )]
[TBLPROPERTIES ([, property_name=property_value] )]

Sie können S3-Tabellen auch mit Anweisungen CREATE TABLE AS SELECT (CTAS) erstellen. Weitere Informationen finden Sie unter CTAS für S3-Tabellen.

S3-Tabellen-Bucket-Kataloge als Athena-Datenquellen registrieren

Um S3-Tabellen-Bucket-Kataloge in der Athena-Konsole zu registrieren, führen Sie die folgenden Schritte aus.

Öffnen Sie die Athena-Konsole unter https://console.aws.amazon.com/athena/.
Wählen Sie im Navigationsbereich Datenquellen und Kataloge aus.
Wählen Sie auf der Seite Datenquellen und Kataloge die Option Datenquellen erstellen aus.
Wählen Sie für Eine Datenquelle auswählen die Option Amazon S3 - AWS Glue Data Catalog.
Wählen Sie im AWS Glue Data Catalog-Abschnitt für Datenquellenkonto die Option AWS Glue Data Catalog in diesem Konto.
Wählen Sie für Tabelle erstellen oder Katalog registrieren die Option Neuen Katalog registrieren aus. AWS Glue
Geben Sie im Abschnitt Datenquellendetails für Datenquellenname den Namen ein, den Sie verwenden möchten, um die Datenquelle in Ihren SQL-Abfragen anzugeben, oder verwenden Sie den generierten Standardnamen.
Wählen Sie unter Katalog die Option Durchsuchen aus, um nach einer Liste von AWS Glue Katalogen im selben Konto zu suchen. Wenn Ihnen keine Kataloge angezeigt werden, erstellen Sie einen in der AWS Glue -Konsole.
Wählen Sie im Dialogfeld „ AWS Glue Kataloge durchsuchen“ den Katalog aus, den Sie verwenden möchten, und klicken Sie dann auf „Auswählen“.
(Optional) Geben Sie unter Tags alle key/value Paare ein, die Sie der Datenquelle zuordnen möchten.
Wählen Sie Weiter aus.
Überprüfen Sie auf der Seite Überprüfen und erstellen die Richtigkeit der eingegebenen Informationen und wählen Sie dann Datenquelle erstellen.

CTAS für S3-Tabellen

Amazon Athena unterstützt jetzt Operationen CREATE TABLE AS SELECT (CTAS) für S3-Tabellen. Mit dieser Feature können Sie neue S3-Tabellen auf der Grundlage der Ergebnisse einer SELECT-Abfrage erstellen.

Bei der Erstellung einer CTAS-Abfrage für eine S3-Tabelle gibt es einige wichtige Unterschiede zu Standard-Athena-Tabellen:

Sie müssen die Speicherort-Eigenschaft weglassen, da S3-Tabellen ihre eigenen Speicherorte automatisch verwalten.
Die table_type-Eigenschaft ist standardmäßig auf ICEBERG, sodass Sie sie in Ihrer Abfrage nicht explizit angeben müssen.
Wenn Sie kein Format angeben, verwendet das System automatisch PARQUET als Standardformat für Ihre Daten.
Alle anderen Eigenschaften folgen derselben Syntax wie normale Iceberg-Tabellen.

Bevor Sie S3-Tabellen mithilfe von CTAS erstellen, stellen Sie sicher, dass Sie die erforderlichen Berechtigungen in IAM oder konfiguriert haben. AWS Lake Formation Insbesondere benötigen Sie Berechtigungen, um Tabellen im S3-Taballen-Katalog zu erstellen. Ohne diese Berechtigungen schlagen Ihre CTAS-Operationen fehl.

Anmerkung

Wenn Ihre CTAS-Abfrage fehlschlägt, müssen Sie möglicherweise Ihre Tabelle mithilfe der S3 Tabellen-API löschen, bevor Sie versuchen, Ihre Abfrage erneut auszuführen. Sie können die DROP TABLE-Athena-Anweisungen nicht verwenden, um die Tabelle zu entfernen, die teilweise durch die Abfrage erstellt wurde.

Beispiel


CREATE TABLE "s3tablescatalog/amzn-s3-demo-bucket"."namespace"."s3-table-name"
WITH (
    format = 'PARQUET'
)
AS SELECT *
FROM source_table;

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verbundkataloge registrieren

Query AWS Glue Datenkataloge in Athena