Verbinden zu Datenquellen

Sie können mittels Amazon Athena Daten abfragen, die in einem Datensatz an verschiedenen Speicherorten und in verschiedenen Formaten gespeichert sind. Dieser Datensatz kann im CSV-, JSON-, Avro-, Parquet- oder anderen Formaten vorliegen.

Die Tabellen und Datenbanken, die Sie in Athena zum Ausführen von Abfragen verwenden, basieren auf Metadaten. Metadaten sind Daten zu den Daten im Datensatz. Die Form, in der diese Metadaten den Datensatz beschreiben, wird Schema genannt. Beispielsweise stellen ein Tabellenname, die Namen der Spalten der Tabelle und die Datentypen der einzelnen Spalten als Metadaten gespeicherte Schemas dar, die den zugrunde liegende Datensatz beschreiben. In Athena wird das System zum Organisieren von Metadaten als Datenkatalog oder Metastore bezeichnet. Die Kombination aus Datensatz und dem Datenkatalog, der diesen Datensatz beschreibt, wird als Datenquelle bezeichnet.

Die Art der Beziehung zwischen den Metadaten und dem zugrunde liegenden Datensatz ist vom Typ der Datenquelle abhängig, mit der Sie arbeiten. Relationale Datenquellen wie MySQL, PostgreSQL und SQL Server integrieren Metadaten eng mit dem Datensatz. Sehr häufig werden in diesen Systemen die Metadaten geschrieben, wenn die Daten geschrieben werden. Andere Datenquellen, z. B. solche, die mit Hive erstellt wurden, ermöglichen es Ihnen, Metadaten zu definieren, on-the-fly wenn Sie den Datensatz lesen. Der Datensatz kann in verschiedenen Formaten vorliegen, z. B. CSV, JSON, Parquet oder Avro.

Athena unterstützt von Haus aus die. AWS Glue Data Catalog Der AWS Glue Data Catalog ist ein Datenkatalog, der auf anderen Datensätzen und Datenquellen wie Amazon S3, Amazon Redshift und Amazon DynamoDB aufbaut. Sie können Athena über Connectors mit anderen Datenquellen verbinden.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Schritt 6: Herstellen einer Verbindung mit anderen Datenquellen

Benutzen AWS Glue Data Catalog