Wann sollte ich Athena verwenden?
Abfrageservices wie Amazon Athena, Data Warehouses wie Amazon Redshift und hochentwickelte Datenverarbeitungs-Frameworks wie Amazon EMR erfüllen alle unterschiedliche Anforderungen und Anwendungsfälle. Die folgende Anleitung kann Ihnen helfen, einen oder mehrere Services basierend auf Ihren Anforderungen auszuwählen.
Amazon Athena
Mit Athena können Sie in Amazon S3 gespeicherte unstrukturierte, semistrukturierte und strukturierte Daten analysieren. Beispiele hierfür sind CSV und JSON oder spaltenbasierte Datenformate wie Apache Parquet und Apache ORC. Mit Athena lassen sich Ad-hoc-Abfragen über ANSI SQL ausführen; dabei müssen die Daten weder aggregiert noch in Athena geladen werden.
Für die einfache Datenvisualisierung lässt sich Athena mit Amazon Quick Suite integrieren. Sie können mit Athena Berichte generieren oder Daten mit Business-Intelligence-Tools oder SQL-Clients analysieren, die eine Verbindung über einen JDBC- oder ODBC-Treiber herstellen. Weitere Informationen finden Sie unter Was ist Amazon Quick Suite? im Amazon Quick Suite-Benutzerhandbuch und Verbindung zu Amazon Athena mit ODBC- und JDBC-Treibern herstellen.
Athena kann mit dem AWS Glue Data Catalog integriert werden, der einen dauerhaften Metadatenspeicher für Ihre Daten in Amazon S3 bietet. Auf diese Weise können Sie in Athena Tabellen erstellen und Daten abfragen, die auf einem zentralen Metadatenspeicher für Ihr Amazon-Web-Services-Konto basieren und mit den Datenermittlungs- und ETL-Features von AWS Glue nutzbar sind. Weitere Informationen finden Sie unter Verwenden Sie AWS Glue Data Catalog, um eine Verbindung zu Ihren Daten herzustellen Was ist AWS Glue? im Entwicklerhandbuch für AWS Glue.
Mit Amazon Athena können Sie ganz einfach interaktive Abfragen zu Daten direkt in Amazon S3 ausführen, ohne Daten formatieren oder Infrastruktur verwalten zu müssen. Zum Beispiel ist Athena nützlich, wenn Sie eine schnelle Abfrage für Webprotokolle ausführen möchten, um ein Leistungsproblem auf Ihrer Website zu beheben. Mit Athena können Sie schnell loslegen: Sie definieren einfach eine Tabelle für Ihre Daten und fragen mit Standard-SQL ab.
Sie sollten Amazon Athena verwenden, wenn Sie interaktive Ad-hoc-SQL-Abfragen für Daten auf Amazon S3 ausführen möchten, ohne eine Infrastruktur oder ein Cluster verwalten zu müssen. Amazon Athena bietet die einfachste Möglichkeit, Ad-hoc-Abfragen für Daten in Amazon S3 auszuführen, ohne dass Server eingerichtet oder verwaltet werden müssen.
Eine Liste der AWS-Services, die Athena nutzt bzw. mit denen es integriert werden kann, finden Sie unter AWS-Service-Integrationen mit Athena.
SageMaker Unified Studio
Amazon SageMaker Unified Studio macht es einfach, mit Amazon Athena und Amazon Redshift zu arbeiten, um SQL-Abfragen für SageMaker Lakehouse-Daten auszuführen. Mit Unified Studio können Sie SQL-Abfragen entwickeln, mit Abfrageergebnissen arbeiten und über eine integrierte Notebook-Umgebung mit Ihrem Team zusammenarbeiten. Sie können auch Amazon Q Generative SQL verwenden, um SQL-Code aus natürlicher Spracheingabe zu generieren. Weitere Informationen finden Sie unter SQL Analytics im Benutzerhandbuch für SageMaker Unified Studio.
Amazon EMR
Mit Amazon EMR können Sie ganz einfach und günstig hochverteilte Verarbeitungs-Frameworks wie Hadoop, Spark und Presto im Vergleich zu On-Premises-Bereitstellungen ausführen. Amazon EMR ist flexibel – Sie können benutzerdefinierte Anwendungen und Code ausführen und spezifische Datenverarbeitungs-, Speicher-, Speicherplatz- und Anwendungsparameter definieren, um Ihre Analyseanforderungen zu optimieren.
Neben der Ausführung von SQL-Abfragen kann Amazon EMR eine Vielzahl von Datenverarbeitungsaufgaben zur Aufskalierung für Anwendungen wie Machine Learning, Graph-Analytik, Datentransformation, Streaming-Daten und praktisch alles, was Sie programmieren können, ausführen. Sie sollten Amazon EMR verwenden, wenn Sie benutzerdefinierten Code verwenden, um extrem große Datensätze mit den neuesten Big-Data-Verarbeitungs-Frameworks wie Spark, Hadoop, Presto oder Hbase zu verarbeiten und zu analysieren. Amazon EMR gibt Ihnen die volle Kontrolle über die Konfiguration Ihrer Cluster und die darauf installierte Software.
Sie können Amazon Athena zum Abfragen von Daten verwenden, die Sie mit Amazon EMR verarbeiten. Amazon Athena unterstützt viele der gleichen Datenformate wie Amazon EMR. Athenas Datenkatalog ist kompatibel mit Hive-Metastore. Wenn Sie EMR verwenden und bereits über einen Hive-Metastore verfügen, können Sie Ihre DDL-Anweisungen bei Amazon Athena ausführen und Ihre Daten sofort abfragen, ohne Ihre Amazon-EMR-Aufträge zu beeinträchtigen.
Amazon Redshift
Ein Data Warehouse wie Amazon Redshift ist die beste Wahl, wenn Sie Daten aus vielen verschiedenen Quellen – wie Lagersystemen, Finanzsystemen und Einzelhandelsverkaufssystemen – in einem gemeinsamen Format zusammenfassen und für lange Zeiträume speichern müssen. Wenn Sie aus historischen Daten umfangreiche Geschäftsberichte erstellen möchten, ist ein Data Warehouse wie Amazon Redshift die beste Wahl. Die Abfrage-Engine in Amazon Redshift wurde optimiert, um bei der Ausführung komplexer Abfragen, die eine große Anzahl sehr großer Datenbanktabellen verbinden, besonders gut zu funktionieren. Wenn Sie Abfragen für hochstrukturierte Daten mit vielen Joins in vielen sehr großen Tabellen ausführen müssen, entscheiden Sie sich für Amazon Redshift.
Weitere Informationen darüber, wann Sie Athena verwenden sollten, finden Sie unter den folgenden Ressourcen:
-
Entscheidungsleitfaden für Analyseservices in AWS im
im Ressourcen-Center für die ersten Schritte -
Wann Athena im Vergleich zu anderen Big-Data-Services
verwendet werden sollte, finden Sie in Häufig gestellte Fragen zu Amazon Athena