AWS runtime for Apache Spark(emr-spark-8.0-preview) - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS runtime for Apache Spark(emr-spark-8.0-preview)

La tabella seguente elenca le versioni dell'applicazione disponibili con (emr-spark-8.0-preview). AWS runtime for Apache Spark

Informazioni sulla versione dell'applicazione
Applicazione Versione
Spark 4.0.1-amzn-0
AWS runtime for Apache SparkNote di rilascio (emr-spark-8.0-preview)
  • Versione di anteprima: questa è una versione di anteprima di Apache Spark 4.0.1. AWS runtime for Apache Spark Questa anteprima è disponibile solo su EMR Serverless.

  • Disponibilità regionale: questa versione di anteprima è disponibile in tutte le AWS regioni in cui è disponibile EMR Serverless, ad eccezione della Cina e delle regioni AWS GovCloud (Stati Uniti).

  • Informazioni sulla versione dell'applicazione: questa versione viene fornita con le seguenti versioni dell'applicazione:

    • AWS SDK per Java 2.35.5, 1.12.792

    • Python 3.9, 3.11, 3.12

    • Scala 2.13.16

    • AmazonCloudWatchAgent 1.300034.0-amzn-0

    • Delta 4.0.0-amzn-0-spark

    • Iceberg 1.10.0-amzn-spark-0

    • Questa versione viene fornita con Amazon Corretto 17 (basato su OpenJDK) per impostazione predefinita per le applicazioni che supportano Corretto 17 (JDK 17).

  • Limitazioni dell'anteprima: le seguenti funzionalità non sono disponibili in questa versione di anteprima:

    • Funzionalità interattive e di integrazione: SageMaker Unified Studio, integrazione con EMR Studio, Spark Connect, Livy e non sono supportate. JupyterEnterpriseGateway

    • Formati di tabelle e controllo degli accessi: Hudi, Delta Universal Format e il controllo degli accessi a grana fine (FGAC) con filtri e operatori a livello di riga o colonna non sono supportati. DDL/DML

    • Connettori dati: i connettori emr-dynamodb e spark-redshift non sono disponibili. spark-sql-kinesis

    • History Server: Il Persistent Spark History Server non è disponibile in questa versione di anteprima. Gli utenti possono comunque accedere all'interfaccia utente live di Spark per monitorare ed eseguire il debug dei job serverless attivi in tempo reale.

    • Funzionalità specializzate: le viste materializzate non sono disponibili.

  • Funzionalità di anteprima: è possibile testare le seguenti funzionalità in questa versione di anteprima. Questa versione di anteprima non è consigliata per i carichi di lavoro di produzione:

    • Caratteristiche SQL: modalità ANSI SQL con gestione dei tipi più rigorosa, sintassi SQL PIPE (|>) per le operazioni di concatenamento, tipo di dati VARIANT per dati JSON semistrutturati, script SQL con istruzioni di flusso di controllo e variabili di sessione e funzioni SQL definite dall'utente.

    • Miglioramenti allo streaming: Arbitrary Stateful Processing API v2 con transformWithState operatore, State Data Source Reader per lo stato di streaming interrogabile (sperimentale) e archivio di stato avanzato con checkpoint migliorato del changelog RockSDB.

    • Supporto per formati di tabella: Apache Iceberg v3 con supporto del tipo di dati VARIANT, integrazione con AWS S3 Tables e Full Table Access (FTA) AWS Lake Formation per le tabelle Iceberg, Delta Lake e Hive.

  • Documentazione aggiuntiva - Per la documentazione aggiuntiva di Apache Spark, consulta la documentazione di rilascio di Apache Spark 4.0.1.

Nozioni di base

Per iniziare con l'anteprima di Apache Spark 4.0.1, crea un'applicazione EMR Serverless utilizzando la CLI: AWS

aws emr-serverless create-application --type spark \ --release-label emr-spark-8.0-preview \ --region us-east-1 --name spark4-preview