Ressourcen für die Verwendung von SageMaker AI Spark for Python (PySpark) — Beispiele - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ressourcen für die Verwendung von SageMaker AI Spark for Python (PySpark) — Beispiele

Amazon SageMaker AI bietet eine Apache Spark-Python-Bibliothek (SageMaker KI PySpark), mit der Sie Ihre Apache Spark-Anwendungen mit SageMaker KI integrieren können. Dieses Thema enthält Beispiele, die Ihnen den Einstieg erleichtern sollen PySpark. Informationen zur SageMaker AI Apache Spark-Bibliothek finden Sie unterApache Spark mit Amazon SageMaker AI.

Download PySpark

Sie können den Quellcode für die Bibliotheken Python Spark (PySpark) und Scala aus dem SageMaker AI GitHub Spark-Repository herunterladen.

Anweisungen zur Installation der SageMaker AI Spark-Bibliothek finden Sie unter den folgenden Optionen oder unter SageMaker AI PySpark.

  • Installieren Sie mithilfe von pip:

    pip install sagemaker_pyspark
  • Installieren Sie von der Quelle aus:

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • In einer Notebook-Instance erstellen Sie ein neues Notebook, das entweder den Kernel Sparkmagic (PySpark) oder Sparkmagic (PySpark3) verwendet, und stellen Sie eine Verbindung mit einem Remote-Amazon-EMR-Cluster her.

    Anmerkung

    Das Amazon-EMR-Cluster muss mit einer IAM-Rolle konfiguriert sein, der die AmazonSageMakerFullAccess-Richtlinie angefügt ist. Weitere Informationen zum Konfigurieren von Rollen für ein EMR-Cluster finden Sie unter Konfigurieren von IAM-Rollen für EMR-Berechtigungen für AWS Services im Amazon EMR Management Guide.

PySpark Beispiele

Beispiele zur Verwendung von SageMaker KI PySpark finden Sie unter: