Ausführen eines Verarbeitungsjobs mit Apache Spark
Apache Spark ist eine einheitliche Analyse-Engine für die Datenverarbeitung in großem Maßstab. Amazon SageMaker AI bietet vorgefertigte Docker-Images, die Apache Spark und andere Abhängigkeiten enthalten, die für die Ausführung verteilter Datenverarbeitungsaufträge erforderlich sind. Im Folgenden finden Sie ein Beispiel für die Ausführung eines Jobs von Amazon SageMaker Processing mit Apache Spark.
Mit dem Amazon SageMaker Python SDK
Ein Code-Repository, das den Quellcode und die Dockerfiles für die Spark-Images enthält, ist auf GitHub
Sie können die sagemaker.spark.PySparkProcessorsagemaker.spark.SparkJarProcessor
Das folgende Codebeispiel veranschaulicht, wie ein Verarbeitungsauftrag ausgeführt wird, der Ihr PySpark-Skript preprocess.py aufruft.
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Einen ausführlichen Einblick finden Sie im Beispiel-Notebook
Wenn Sie das Amazon SageMaker AI Python SDK
Weitere Informationen zur Verwendung des SageMaker Python SDK mit Verarbeitungscontainern finden Sie unter Amazon SageMaker AI Python SDK