Welche speziellen Konfigurationen verwaltet HyperPod in den Slurm-Konfigurationsdateien - Amazon SageMaker AI

Welche speziellen Konfigurationen verwaltet HyperPod in den Slurm-Konfigurationsdateien

Wenn Sie einen Slurm-Cluster auf HyperPod erstellen, richtet der HyperPod-Agent die Dateien slurm.conf und gres.conf unter ein /opt/slurm/etc/, um den Slurm-Cluster basierend auf Ihrer HyperPod-Cluster-Erstellungsanforderung und Ihren Lebenszyklusskripten zu verwalten. Die folgende Liste zeigt, welche spezifischen Parameter der HyperPod-Agent verarbeitet und überschreibt.

Wichtig

Wir empfehlen dringend, diese von HyperPod verwalteten Parameter nicht zu ändern.

  • In slurm.conf richtet HyperPod die folgenden grundlegenden Parameter ein: ClusterName, SlurmctldHost, PartitionName und NodeName.

    Um die Automatische Wiederaufnahme-Funktionalität zu aktivieren, erfordert HyperPod außerdem, dass die Parameter TaskPlugin und SchedulerParameters wie folgt festgelegt sind. Der HyperPod-Agent richtet diese beiden Parameter standardmäßig mit den erforderlichen Werten ein.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • In gres.conf verwaltet HyperPod NodeName für GPU-Knoten.