

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Apache Spark
<a name="emr-spark"></a>

[Apache Spark](https://aws.amazon.com/emr/features/spark/) è un framework di elaborazione distribuito e un modello di programmazione che consente di eseguire attività come machine learning, elaborazione di flussi o analisi di grafici con i cluster Amazon EMR. Come Apache Hadoop, Spark è un sistema di elaborazione distribuito open source utilizzato in genere per carichi di lavoro di Big Data. Tuttavia, Spark presenta diverse differenze notevoli rispetto a Hadoop. MapReduce in quanto dispone di un motore di esecuzione di grafi aciclici orientati (DAG) ottimizzato e memorizza attivamente i dati nella cache. Queste caratteristiche possono migliorare le prestazioni, in particolare per determinati algoritmi e query interattive.

Spark supporta applicazioni scritte in Scala, Python e Java a livello nativo. [Include anche diverse librerie strettamente integrate per SQL ([Spark](https://spark.apache.org/sql/)), machine learning ([MLLib](https://spark.apache.org/mllib/)), stream processing ([Spark streaming](https://spark.apache.org/streaming/)) ed elaborazione di grafici (GraphX).](https://spark.apache.org/graphx/) Questi strumenti semplificano l'utilizzo del framework Spark per un'ampia gamma di casi d'uso. 

Puoi installare Spark su un cluster Amazon EMR insieme ad altre applicazioni Hadoop. Questa soluzione consente inoltre l'utilizzo del file system Amazon EMR (EMRFS) per accedere direttamente ai dati in Amazon S3. Hive è anche integrato con Spark in modo da poter utilizzare un HiveContext oggetto per eseguire script Hive utilizzando Spark. Un contesto Hive è incluso nella shell di Spark come `sqlContext`. 

Per un esempio di tutorial sulla configurazione di un cluster EMR con Spark e l'analisi di un set di dati di esempio, consulta [Tutorial: Getting started with Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html) sul blog News. AWS 

Puoi utilizzare Apache Spark Troubleshooting Agent per risolvere i problemi delle tue applicazioni Apache Spark su EMR su EC2 ed EMR Serverless. [Cos'è l'agente di risoluzione dei problemi di Apache Spark per Amazon EMR](spark-troubleshoot.md)Per saperne di più, consulta.

**Importante**  
Apache Spark versione 2.3.1, disponibile a partire dalla versione 5.16.0 di Amazon EMR, indirizzi e. [CVE-2018-8024[CVE-2018-1334](https://nvd.nist.gov/vuln/detail/CVE-2018-1334)](https://nvd.nist.gov/vuln/detail/CVE-2018-8024) Si consiglia di eseguire la migrazione delle versioni precedenti di Spark a Spark 2.3.1 o versioni successive.

La seguente tabella indica la versione di Spark inclusa nell'ultimo rilascio della serie Amazon EMR 7.x insieme ai componenti che Amazon EMR installa con Spark.

[Per la versione dei componenti installati con Spark in questa versione, consulta Versioni dei componenti della release 7.13.0.](emr-7130-release.md)


**Informazioni sulla versione di Spark per emr-7.13.0**  

| Etichetta di rilascio di Amazon EMR | Versione di Spark | Componenti installati con Spark | 
| --- | --- | --- | 
| emr-7.13.0 | Spark 3.5.6-amzn-2 | delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-hdfs-zkfc, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

La seguente tabella indica la versione di Spark inclusa nell'ultimo rilascio della serie Amazon EMR 6.x insieme ai componenti che Amazon EMR installa con Spark.

Per la versione dei componenti installati con Spark in questo rilascio, consulta la sezione [Versioni dei componenti del rilascio 6.15.0](emr-6150-release.md).


**Informazioni sulla versione di Spark per emr-6.15.0**  

| Etichetta di rilascio di Amazon EMR | Versione di Spark | Componenti installati con Spark | 
| --- | --- | --- | 
| emr-6.15.0 | Spark 3.4.1-amzn-2 | aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**Nota**  
Rilascio 6.8.0 di Amazon EMR con Spark per Apache 3.3.0. Questa versione di Spark utilizza Apache Log4j 2 e il file `log4j2.properties` per configurare Log4j nei processi Spark. Se utilizzi Spark nel cluster o crei cluster EMR con parametri di configurazione personalizzati e desideri eseguire l'aggiornamento alla versione 6.8.0 di Amazon EMR, devi migrare alla nuova classificazione della configurazione e formato chiave `spark-log4j2` per Apache Log4j 2. Per ulteriori informazioni, consulta [Migrazione da Apache Log4j 1.x a Log4j 2.x](emr-spark-configure.md#spark-migrate-logj42).

La seguente tabella indica la versione di Spark inclusa nell'ultimo rilascio della serie Amazon EMR 5.x insieme ai componenti che Amazon EMR installa con Spark.

[Per la versione dei componenti installati con Spark in questa versione, vedi Versioni dei componenti della release 5.36.2.](emr-5362-release.md)


**Informazioni sulla versione di Spark per emr-5.36.2**  

| Etichetta di rilascio di Amazon EMR | Versione di Spark | Componenti installati con Spark | 
| --- | --- | --- | 
| emr-5.36.2 | Spark 2.4.8-amzn-2 | aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave | 

**Topics**
+ [Creazione di un cluster con Apache Spark](emr-spark-launch.md)
+ [Esecuzione di applicazioni Spark con Docker utilizzando Amazon EMR 6.x](emr-spark-docker.md)
+ [Usa AWS Glue Data Catalog con Spark su Amazon EMR](emr-spark-glue.md)
+ [Utilizzo di una gerarchia multicatalogo in AWS Glue Data Catalog with Spark su Amazon EMR](emr-multi-catalog.md)
+ [Configurazione di Spark](emr-spark-configure.md)
+ [Cos'è l'agente di risoluzione dei problemi di Apache Spark per Amazon EMR](spark-troubleshoot.md)
+ [Ottimizzazione delle prestazioni di Spark](emr-spark-performance.md)
+ [Caching dei frammenti dei risultati Spark](emr-spark-fragment-result-caching.md)
+ [Utilizza Nvidia RAPIDS Accelerator per Apache Spark](emr-spark-rapids.md)
+ [Accesso alla shell Spark](emr-spark-shell.md)
+ [Usa Amazon SageMaker Spark per l'apprendimento automatico](emr-spark-sagemaker.md)
+ [Scrittura di un'applicazione Spark](emr-spark-application.md)
+ [Migliorare le prestazioni di Spark con Amazon S3](emr-spark-s3-performance.md)
+ [Aggiungi una fase Spark](emr-spark-submit-step.md)
+ [Visualizzazione della cronologia delle applicazioni Spark](emr-spark-application-history.md)
+ [Accedi alle interfacce utente Web di Spark](emr-spark-webui.md)
+ [Utilizzo del connettore Amazon Kinesis Data Streams per lo streaming strutturato Spark](emr-spark-structured-streaming-kinesis.md)
+ [Utilizzo dell'integrazione di Amazon Redshift per Apache Spark su Amazon EMR](emr-spark-redshift.md)
+ [Cronologia dei rilasci di Spark](Spark-release-history.md)
+ [Utilizzo di viste materializzate con Amazon EMR](emr-spark-materialized-views.md)