Optimieren Sie Abfragen mit AWS Glue Partitionsindizierung und -filterung - Amazon Athena

Optimieren Sie Abfragen mit AWS Glue Partitionsindizierung und -filterung

Wenn Athena partitionierte Tabellen abfragt, ruft es die verfügbaren Tabellenpartitionen ab und filtert sie nach der für Ihre Abfrage relevanten Teilmenge. Wenn neue Daten und Partitionen hinzugefügt werden, ist mehr Zeit für die Verarbeitung der Partitionen erforderlich, und die Abfragelaufzeit kann sich erhöhen. Wenn Sie eine Tabelle mit einer großen Anzahl von Partitionen haben, die im Laufe der Zeit wächst, sollten Sie die AWS Glue-Partitionsindizierung und -filterung verwenden. Die Partitionsindizierung ermöglicht Athena, die Partitionsverarbeitung zu optimieren und die Abfrageleistung für stark partitionierte Tabellen zu verbessern. Das Einrichten der Partitionsfilterung in den Eigenschaften einer Tabelle ist ein zweistufiger Prozess:

  1. Erstellen eines Partitionsindex in AWS Glue.

  2. Aktivieren der Partitionsfilterung für die Tabelle.

Erstellen eines Partitionsindex

Schritte zum Erstellen eines Partitionsindex in AWS Glue finden Sie unter Arbeiten mit Partitionsindizes im AWS Glue-Entwicklerhandbuch. Die Einschränkungen bei Partitionsindizes in AWS Glue finden Sie im Abschnitt Informationen zu Partitionsindizes auf dieser Seite.

Aktivieren der Partitionsfilterung

Um die Partitionsfilterung für die Tabelle zu aktivieren, müssen Sie eine neue Tabelleneigenschaft in festlegen AWS Glue. Schritte zum Festlegen von Tabelleneigenschaften in AWS Glue finden Sie auf der Seite Einrichten der Partitionsprojektion. Wenn Sie die Tabellendetails in AWS Glue bearbeiten, fügen Sie dem Abschnitt Table properties (Tabelleneigenschaften) das folgende Schlüssel-Wert-Paar hinzu:

  • Fügen Sie für Key (Schlüssel) partition_filtering.enabled hinzu

  • Fügen Sie für Wert true hinzu

Sie können die Partitionsfilterung für diese Tabelle jederzeit deaktivieren, indem Sie den Wert partition_filtering.enabled auf false setzen.

Nachdem Sie die obigen Schritte ausgeführt haben, können Sie zur Athena-Konsole zurückkehren, um die Daten abzufragen.

Weitere Informationen zur Verwendung der Partitionsindizierung und -filterung finden Sie unter Verbessern der Abfrageleistung von Amazon Athena mit AWS Glue Data Catalog-Partitionsindizes im AWS-Big-Data-Blog.