Fehlerbehebung
Wenn Sie mit Amazon EMR-Clustern von Studio- oder Studio Classic-Notebooks aus arbeiten, können Sie während des Verbindungs- oder Nutzungsprozesses auf verschiedene potenzielle Probleme oder Herausforderungen stoßen. Um Ihnen bei der Behebung und Behebung dieser Fehler zu helfen, finden Sie in diesem Abschnitt Anleitungen zu häufig auftretenden Problemen.
Im Folgenden sind häufig auftretende Fehler aufgeführt, die beim Herstellen einer Verbindung zu oder bei der Verwendung von Amazon-EMR-Clustern von Studio-Notebooks aus auftreten können.
Probleme mit Livy-Verbindungen beheben, die hängen bleiben oder fehlschlagen
Im Folgenden sind Livy-Verbindungsprobleme aufgeführt, die bei der Verwendung von Amazon-EMR-Clustern aus Studio-Notebooks auftreten können.
-
In Ihrem Amazon-EMR-Cluster ist ein Fehler wegen zu wenig Speicher aufgetreten.
Ein möglicher Grund dafür, dass eine Livy-Verbindung über
sparkmagichängenbleibt oder fehlschlägt, liegt darin, dass in Ihrem Amazon EMR-Cluster ein Fehler wegen zu wenig Speicher aufgetreten ist.Standardmäßig ist der Java-Konfigurationsparameter des Apache Spark-Treibers
spark.driver.defaultJavaOptionsauf-XX:OnOutOfMemoryError='kill -9 %p'eingestellt. Das bedeutet, dass die Standardaktion für den Fall, dass das Treiberprogramm auf einOutOfMemoryErrortrifft, die Beendigung des Treiberprogramms ist, indem ein SIGKILL-Signal gesendet wird. Wenn der Apache Spark-Treiber beendet wird, bleibt jede Livy-Verbindung übersparkmagic, die von diesem Treiber abhängt, hängen oder schlägt fehl. Das liegt daran, dass der Spark-Treiber für die Verwaltung der Ressourcen der Spark-Anwendung verantwortlich ist. Dazu gehören auch die Aufgabenplanung und -ausführung. Ohne den Treiber kann die Spark-Anwendung nicht funktionieren, und alle Versuche, mit ihr zu interagieren, schlagen fehl.Wenn Sie vermuten, dass in Ihrem Spark-Cluster Speicherprobleme auftreten, können Sie die Amazon EMR-Protokolle durchgehen. Container, die aufgrund von Fehlern wegen zu wenig Speicher beendet wurden, werden in der Regel mit dem Code
137beendet. In solchen Fällen müssen Sie die Spark-Anwendung neu starten und eine neue Livy-Verbindung herstellen, um die Interaktion mit dem Spark-Cluster wieder aufzunehmen.Weitere Informationen finden Sie im Knowledgebase-Artikel Wie behebe ich den Fehler „Container wurde von YARN wegen Überschreitung der Speichergrenzen beendet“ in Spark auf Amazon EMR
? auf AWS re:Post, um mehr über verschiedene Strategien und Parameter zu erfahren, mit denen ein Problem mit unzureichendem Arbeitsspeicher behoben werden kann. Wir empfehlen, in den Amazon EMR Best Practices Guides
nach bewährten Methoden und Anleitungen zur Optimierung von Apache Spark-Workloads auf Ihren Amazon EMR-Clustern zu suchen. -
Bei Ihrer Livy-Sitzung kommt es zu einer Zeitüberschreitung, wenn Sie sich zum ersten Mal mit einem Amazon EMR-Cluster verbinden.
Wenn Sie zum ersten Mal mithilfe der Sagemaker-Studio-Analytics-Extension
eine Verbindung zu einem Amazon EMR-Cluster herstellen, die die Verbindung zu einem Remote-Spark-Cluster (Amazon EMR) über die SparkMagic-Bibliothek mithilfe von Apache Livy ermöglicht, kann ein Verbindungsfehler aufgrund einer Zeitüberschreitung auftreten: An error was encountered: Session 0 did not start up in 60 seconds.Wenn Ihr Amazon EMR-Cluster beim Herstellen einer Verbindung die Initialisierung einer Spark-Anwendung erfordert, besteht eine erhöhte Wahrscheinlichkeit, dass Verbindungsfehler aufgrund einer Zeitüberschreitung auftreten.
Um die Wahrscheinlichkeit von Zeitüberschreitungen bei der Verbindung zu einem Amazon EMR-Cluster mithilfe von Livy über die Analytik-Erweiterung zu verringern, überschreibt
sagemaker-studio-analytics-extensionVersion0.0.19und später die standardmäßige Zeitüberschreitung für Serversitzungen mit120Sekunden anstatt des Standardwertes vonsparkmagicvon60Sekunden.Wir empfehlen, Ihre Erweiterung
0.0.18und früher zu aktualisieren, indem Sie den folgenden Upgrade-Befehl ausführen.pip install --upgrade sagemaker-studio-analytics-extensionBeachten Sie, dass bei der Bereitstellung einer benutzerdefinierten Konfiguration für die Zeitüberschreitung in
sparkmagicsagemaker-studio-analytics-extensiondiese Änderung berücksichtigt. Wenn Sie die Zeitüberschreitung für eine Sitzung auf60Sekunden festlegen, wird die standardmäßige Zeitüberschreitung für Serversitzungen von120Sekunden allerdings automatisch insagemaker-studio-analytics-extensiongeändert.