Exécution d’une tâche de traitement avec Apache Spark
Apache Spark est un moteur analytique unifié, pour le traitement des données à grande échelle. Amazon SageMaker AI fournit des images Docker prédéfinies qui incluent Apache Spark et d’autres dépendances nécessaires pour exécuter des tâches de traitement distribué des données. Vous trouverez ci-dessous un exemple d’exécution d’une tâche Amazon SageMaker Processing à l’aide d’Apache Spark.
Avec le SDK Amazon SageMaker Python
Un référentiel de code contenant le code source et les fichiers Docker pour les images Spark est disponible sur GitHub
Vous pouvez utiliser la classe sagemaker.spark.PySparkProcessorsagemaker.spark.SparkJarProcessor
L'exemple de code suivant montre comment exécuter une tâche de traitement qui appelle votre script PySpark preprocess.py.
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Pour plus d’informations, consultez l’exemple de bloc-notes
Si vous n’utilisez pas le kit Amazon SageMaker AI Python SDK
Pour en savoir plus sur l’utilisation du kit SageMaker Python SDK avec des conteneurs Processing, consultez Amazon SageMaker AI Python SDK