Verbinden zu Datenquellen - Amazon Athena

Verbinden zu Datenquellen

Sie können mittels Amazon Athena Daten abfragen, die in einem Datensatz an verschiedenen Speicherorten und in verschiedenen Formaten gespeichert sind. Dieser Datensatz kann im CSV-, JSON-, Avro-, Parquet- oder anderen Formaten vorliegen.

Die Tabellen und Datenbanken, die Sie in Athena zum Ausführen von Abfragen verwenden, basieren auf Metadaten. Metadaten sind Daten zu den Daten im Datensatz. Die Form, in der diese Metadaten den Datensatz beschreiben, wird Schema genannt. Beispielsweise stellen ein Tabellenname, die Namen der Spalten der Tabelle und die Datentypen der einzelnen Spalten als Metadaten gespeicherte Schemas dar, die den zugrunde liegende Datensatz beschreiben. In Athena wird das System zum Organisieren von Metadaten als Datenkatalog oder Metastore bezeichnet. Die Kombination aus Datensatz und dem Datenkatalog, der diesen Datensatz beschreibt, wird als Datenquelle bezeichnet.

Die Art der Beziehung zwischen den Metadaten und dem zugrunde liegenden Datensatz ist vom Typ der Datenquelle abhängig, mit der Sie arbeiten. Relationale Datenquellen wie MySQL, PostgreSQL und SQL Server integrieren Metadaten eng mit dem Datensatz. Sehr häufig werden in diesen Systemen die Metadaten geschrieben, wenn die Daten geschrieben werden. Andere Datenquellen, beispielsweise mit Hive erstellte Datenquellen, ermöglichen Ihnen das Definieren von Metadaten, während der Datensatz gelesen wird. Der Datensatz kann in verschiedenen Formaten vorliegen, z. B. CSV, JSON, Parquet oder Avro.

Athena unterstützt den nativ AWS Glue Data Catalog. Der AWS Glue Data Catalog ist ein Datenkatalog, der auf anderen Datensätzen und Datenquellen wie Amazon S3, Amazon Redshift und Amazon DynamoDB aufbaut. Sie können Athena über Connectors mit anderen Datenquellen verbinden.