Welche speziellen Konfigurationen verwaltet HyperPod in den Slurm-Konfigurationsdateien
Wenn Sie einen Slurm-Cluster auf HyperPod erstellen, richtet der HyperPod-Agent die Dateien slurm.confgres.conf/opt/slurm/etc/, um den Slurm-Cluster basierend auf Ihrer HyperPod-Cluster-Erstellungsanforderung und Ihren Lebenszyklusskripten zu verwalten. Die folgende Liste zeigt, welche spezifischen Parameter der HyperPod-Agent verarbeitet und überschreibt.
Wichtig
Wir empfehlen dringend, diese von HyperPod verwalteten Parameter nicht zu ändern.
-
In
slurm.confrichtet HyperPod die folgenden grundlegenden Parameter ein: ClusterName,SlurmctldHost,PartitionNameundNodeName.Um die Automatische Wiederaufnahme-Funktionalität zu aktivieren, erfordert HyperPod außerdem, dass die Parameter
TaskPluginundSchedulerParameterswie folgt festgelegt sind. Der HyperPod-Agent richtet diese beiden Parameter standardmäßig mit den erforderlichen Werten ein.TaskPlugin=task/none SchedulerParameters=permit_job_expansion -
In
gres.confverwaltet HyperPod NodeNamefür GPU-Knoten.