

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Apache Spark
<a name="emr-spark"></a>

[Apache Spark](https://aws.amazon.com/emr/features/spark/) ist ein verteiltes Verarbeitungs-Framework und Programmiermodell, mit dem Sie Machine Learning, Stream-Verarbeitung oder Graph-Analysen mit Amazon-EMR-Clustern durchführen können. Ähnlich wie Apache Hadoop ist Spark ein verteiltes Open-Source-Verarbeitungssystem, das häufig für Big-Data-Workloads verwendet wird. Spark weist jedoch einige bemerkenswerte Unterschiede zu Hadoop MapReduce auf. Spark hat eine optimierte DAG-Ausführungs-Engine (Directed Acyclic Graph, gerichteter azyklischer Graph) und betreibt aktives In-Memory-Caching für Daten. Dies kann die Leistung insbesondere für bestimmte Algorithmen und interaktive Abfragen steigern.

Spark unterstützt standardmäßig Anwendungen, die in Scala, Java und Python geschrieben sind. Es enthält auch mehrere eng integrierte Bibliotheken für SQL ([Spark](https://spark.apache.org/sql/)), maschinelles Lernen ([MLLib](https://spark.apache.org/mllib/)), Stream-Verarbeitung ([Spark-Streaming](https://spark.apache.org/streaming/)) und Graphverarbeitung ([GraphX](https://spark.apache.org/graphx/)). Diese Tools vereinfachen die Nutzung des Spark-Frameworks für eine Vielzahl von Anwendungsfällen. 

Sie können Spark zusammen mit anderen Hadoop-Anwendungen auf einem Amazon-EMR-Cluster installieren. Es kann außerdem das Amazon-EMR-Dateisystem (EMRFS) nutzen, um direkt auf Daten in Amazon S3 zuzugreifen. Hive ist auch in Spark integriert, sodass Sie ein HiveContext Objekt verwenden können, um Hive-Skripte mit Spark auszuführen. Ein Hive-Kontext ist als `sqlContext` Bestandteil der Spark-Shell. 

Ein Beispiel-Tutorial zur Einrichtung eines EMR-Clusters mit Spark und zur Analyse eines Beispieldatensatzes finden Sie unter [Tutorial: Erste Schritte mit Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html) im AWS News-Blog.

Sie können den Apache Spark Troubleshooting Agent verwenden, um Fehler bei Ihren Apache Spark-Anwendungen auf EMR on EC2 und EMR Serverless zu beheben. Weitere Informationen finden Sie unter. [Was ist der Apache Spark Troubleshooting Agent für Amazon EMR](spark-troubleshoot.md)

**Wichtig**  
Apache Spark Version 2.3.1, verfügbar ab Amazon EMR Version 5.16.0, adressiert und. [CVE-2018-8024[CVE-2018-1334](https://nvd.nist.gov/vuln/detail/CVE-2018-1334)](https://nvd.nist.gov/vuln/detail/CVE-2018-8024) Wir empfehlen, dass Sie frühere Versionen von Spark zu Spark-Version 2.3.1 oder höher migrieren.

Die folgende Tabelle listet die Version von Spark auf, die in der neuesten Version der Amazon-EMR-7.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Spark installiert.

[Informationen zur Version der Komponenten, die in dieser Version mit Spark installiert wurden, finden Sie unter Komponentenversionen von Version 7.13.0.](emr-7130-release.md)


**Spark-Versionsinformationen für emr-7.13.0**  

| Amazon-EMR-Versionsbezeichnung | Spark-Version | Mit Spark installierte Komponenten | 
| --- | --- | --- | 
| emr-7.13.0 | Spark 3.5.6-amzn-2 | delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-hdfs-zkfc, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

Die folgende Tabelle listet die Version von Spark auf, die in der neuesten Version der Amazon-EMR-6.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Spark installiert.

Die Version der Komponenten, die mit Spark in dieser Version installiert wurden, finden Sie unter [Komponentenversionen der Version 6.15.0](emr-6150-release.md).


**Spark-Versionsinformationen für emr-6.15.0**  

| Amazon-EMR-Versionsbezeichnung | Spark-Version | Mit Spark installierte Komponenten | 
| --- | --- | --- | 
| emr-6.15.0 | Spark 3.4.1-amzn-2 | aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**Anmerkung**  
Amazon-EMR-Version 6.8.0 wird mit Apache Spark 3.3.0 geliefert. Diese Spark-Version verwendet Apache Log4j 2 und die `log4j2.properties`-Datei zur Konfiguration von Log4j in Spark-Prozessen. Wenn Sie Spark im Cluster verwenden oder EMR-Cluster mit benutzerdefinierten Konfigurationsparametern erstellen und ein Upgrade auf Amazon-EMR-Version 6.8.0 durchführen möchten, müssen Sie auf die neue `spark-log4j2`-Konfigurationsklassifizierung und das neue Schlüsselformat für Apache Log4j 2 migrieren. Weitere Informationen finden Sie unter [Migration von Apache Log4j 1.x zu Log4j 2.x](emr-spark-configure.md#spark-migrate-logj42).

Die folgende Tabelle listet die Version von Spark auf, die in der neuesten Version der Amazon-EMR-5.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Spark installiert.

[Informationen zur Version der Komponenten, die in dieser Version mit Spark installiert wurden, finden Sie unter Komponentenversionen von Version 5.36.2.](emr-5362-release.md)


**Spark-Versionsinformationen für emr-5.36.2**  

| Amazon-EMR-Versionsbezeichnung | Spark-Version | Mit Spark installierte Komponenten | 
| --- | --- | --- | 
| emr-5.36.2 | Spark 2.4.8-amzn-2 | aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**Topics**
+ [Einen Cluster mit Apache Spark erstellen](emr-spark-launch.md)
+ [Spark-Anwendungen mit Docker mithilfe von Amazon EMR 6.x ausführen](emr-spark-docker.md)
+ [Verwenden Sie AWS Glue Data Catalog mit Spark auf Amazon EMR](emr-spark-glue.md)
+ [Arbeiten mit einer Hierarchie mit mehreren Katalogen in AWS Glue Data Catalog mit Spark auf Amazon EMR](emr-multi-catalog.md)
+ [Konfigurieren von Spark](emr-spark-configure.md)
+ [Was ist der Apache Spark Troubleshooting Agent für Amazon EMR](spark-troubleshoot.md)
+ [Die Leistung von Spark optimieren](emr-spark-performance.md)
+ [Caching von Ergebnisfragmenten in Spark](emr-spark-fragment-result-caching.md)
+ [Den Nvidia-RAPIDS-Accelerator für Apache Spark verwenden](emr-spark-rapids.md)
+ [Zugriff auf die Spark-Shell](emr-spark-shell.md)
+ [Verwenden Sie Amazon SageMaker Spark für maschinelles Lernen](emr-spark-sagemaker.md)
+ [Eine Spark-Anwendung schreiben](emr-spark-application.md)
+ [Verbessern der Spark Leistung mit Amazon S3](emr-spark-s3-performance.md)
+ [Einen Spark-Schritt hinzufügen](emr-spark-submit-step.md)
+ [Anzeigen des Spark-Anwendungsverlaufs](emr-spark-application-history.md)
+ [Zugreifen auf Web-Benutzerschnittstellen in Spark](emr-spark-webui.md)
+ [Verwenden des Amazon Kinesis Data Streams-Connectors für strukturiertes Streaming mit Spark](emr-spark-structured-streaming-kinesis.md)
+ [Amazon-Redshift-Integration für Apache Spark mit Amazon EMR verwenden](emr-spark-redshift.md)
+ [Spark-Versionsverlauf](Spark-release-history.md)
+ [Materialisierte Ansichten mit Amazon EMR verwenden](emr-spark-materialized-views.md)