Validieren der JSON-Konfigurationsdateien vor der Erstellung eines Slurm-Clusters auf HyperPod - Amazon SageMaker AI

Validieren der JSON-Konfigurationsdateien vor der Erstellung eines Slurm-Clusters auf HyperPod

Verwenden Sie das Konfigurationsvalidierungsskript validate-config.py, um die JSON-Konfigurationsdateien zu validieren, bevor Sie ein Anforderung zur Clustererstellung übermitteln. Dieses Skript analysiert und vergleicht Ihre Clusterkonfigurations-JSON-Datei von HyperPod und Ihre Konfigurations-JSON-Datei von Slurm und ermittelt, ob zwischen den beiden Dateien sowie zwischen Amazon-EC2-, Amazon-VPC- und Amazon-FSx-Ressourcen Fehlkonfigurationen bei den Ressourcen vorliegen. Um beispielsweise die Dateien provisioning_parameters.json und create_cluster.json aus dem Von HyperPod bereitgestellte Basis-Lebenszyklusskripte-Abschnitt zu validieren, führen Sie das Validierungsskript wie folgt aus.

python3 validate-config.py --cluster-config create_cluster.json --provisioning-parameters provisioning_parameters.json

Im Folgenden finden Sie eine Beispielausgabe für eine erfolgreiche Validierung.

✔️ Validated instance group name worker-group-1 is correct ... ✔️ Validated subnet subnet-012345abcdef67890 ... ✔️ Validated security group sg-012345abcdef67890 ingress rules ... ✔️ Validated security group sg-012345abcdef67890 egress rules ... ✔️ Validated FSx Lustre DNS name fs-012345abcdef67890.fsx.us-east-1.amazonaws.com ✔️ Validated FSx Lustre mount name abcdefgh ✅ Cluster Validation succeeded