Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risoluzione dei problemi relativi al componente aggiuntivo Amazon SageMaker HyperPod Observability
Utilizza le seguenti linee guida per risolvere problemi comuni con il componente aggiuntivo Amazon SageMaker HyperPod (SageMaker HyperPod) observability.
Risoluzione dei problemi relativi alle metriche mancanti in Grafana gestito da Amazon
Se le metriche non compaiono nelle dashboard di Grafana gestito da Amazon, segui queste fasi per identificare e risolvere il problema.
Verifica della connessione tra il Servizio gestito da Amazon per Prometheus e Grafana gestito da Amazon
-
Accedi alla console di Grafana gestito da Amazon.
-
Nel riquadro a sinistra, scegli Tutto workspaces.
-
Nella tabella Workspace, scegli il tuo spazio di lavoro.
-
Nella pagina dei dettagli dello spazio di lavoro, scegli la scheda Origini dati.
-
Verifica che l’origine dati del Servizio gestito da Amazon per Prometheus esista.
-
Controlla le impostazioni di connessione:
-
Conferma che l’URL dell’endpoint sia corretto.
-
Verifica che l’autenticazione IAM sia configurata correttamente.
-
Scegli Test Connection (Connessione di prova). Verifica che lo stato sia Origine dati funzionante.
-
Verifica dello stato del componente aggiuntivo Amazon EKS
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Selezionare il cluster.
-
Selezionare la scheda Componenti aggiuntivi.
-
Verifica che il componente aggiuntivo di SageMaker HyperPod osservabilità sia elencato e che il suo stato sia ATTIVO.
-
Se lo stato non è ACTIVE, consulta Risoluzione degli errori di installazione del componente aggiuntivo.
Verifica dell’associazione Pod Identity
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Selezionare il cluster.
-
Nella pagina dei dettagli del cluster, scegli la scheda Accesso.
-
Nella tabella Associazioni Pod Identity, scegli l’associazione con i valori di proprietà seguenti:
-
Spazio dei nomi:
hyperpod-observability -
Account del servizio:
hyperpod-observability-operator-otel-collector -
Componente aggiuntivo:
amazon-sagemaker-hyperpod-observability
-
-
Assicurati che il ruolo IAM collegato a questa associazione abbia le autorizzazioni seguenti.
-
Assicurati che il ruolo IAM collegato a questa associazione abbia la policy di attendibilità seguente. Verifica che l’ARN di origine e l’account di origine siano corretti.
Verifica della limitazione (della larghezza di banda della rete) del Servizio gestito da Amazon per Prometheus
-
Accedi Console di gestione AWS e apri la console Service Quotas all'indirizzo. https://console.aws.amazon.com/servicequotas/
-
Nella casella Quote gestite, cerca e seleziona Servizio gestito da Amazon per Prometheus.
-
Scegli la quota Serie attiva per spazio di lavoro.
-
Nella scheda Quote a livello di risorsa, seleziona lo spazio di lavoro del Servizio gestito da Amazon per Prometheus.
-
Assicurati che l’utilizzo sia inferiore alla tua quota attuale.
-
Se hai raggiunto il limite di quota, seleziona lo spazio di lavoro scegliendo il pulsante di opzione a sinistra, quindi seleziona Richiedi un aumento a livello di risorsa.
Verifica che la memorizzazione nella cache KV e il routing intelligente siano abilitati
Se manca la KVCache Metrics dashboard, la funzionalità non è abilitata o la porta non è menzionata nel. modelMetrics Per ulteriori informazioni su come abilitarla, consulta i passaggi 1 e 3 di seguitoConfigura la memorizzazione nella cache KV e il routing intelligente per migliorare le prestazioni.
Se manca la Intelligent Router Metrics dashboard, abilita la funzione per farli apparire. Per ulteriori informazioni su come abilitarla, consultaConfigura la memorizzazione nella cache KV e il routing intelligente per migliorare le prestazioni.
Risoluzione degli errori di installazione del componente aggiuntivo
Se l’installazione del componente aggiuntivo Observability non riesce, utilizza la procedura seguente per diagnosticare e risolvere il problema.
Controlla lo stato di integrità della sonda
-
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Selezionare il cluster.
-
Selezionare la scheda Componenti aggiuntivi.
-
Scegli il componente aggiuntivo non riuscito.
-
Consulta la sezione Problemi di integrità.
-
Se il problema di integrità è correlato alle credenziali o a Pod Identity, consulta Verifica dell’associazione Pod Identity. Assicurati inoltre che il componente aggiuntivo Pod Identity Agent sia in esecuzione nel cluster.
-
Verifica la presenza di errori nei log del gestore. Per istruzioni, consulta Revisione dei log del gestore.
-
Contatta l'AWSassistenza per i dettagli del problema.
Revisione dei log del gestore
-
Scarica il pod del gestore dei componenti aggiuntivi:
kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager -
Per problemi urgenti, contatta Supporto.
Revisione di tutti i pod di osservabilità
Tutti i pod creati dal componente aggiuntivo SageMaker HyperPod Observability si trovano nel namespace. hyperpod-observability Per ottenere lo stato di questi pod, utilizza il comando seguente.
kubectl get pods -n hyperpod-observability
Cerca i pod il cui stato è pending o crashloopbackoff. Utilizza il comando seguente per ottenere i log di questi pod in sospeso o in errore.
kubectl logs -n hyperpod-observability pod-name
Se non trovi errori nei log, utilizza il comando seguente per descrivere i pod e cercare gli errori.
kubectl describe -n hyperpod-observability pod pod-name
Per ottenere più contesto, esegui questi due comandi per visualizzare le descrizioni delle implementazioni e dei DaemonSet per questi pod.
kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name
Risoluzione dei problemi relativi ai pod bloccati nello stato in sospeso
Se vedi che ci sono dei pod bloccati nello stato pending, assicurati che il nodo sia abbastanza grande da contenerli tutti. Per verificare che lo sia, procedi come segue.
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Scegli il cluster.
-
Scegli la scheda Calcolo del cluster.
-
Scegli il nodo con il tipo di istanza più piccolo.
-
Nella sezione di allocazione della capacità, cerca i pod disponibili.
-
Se non ci sono pod disponibili, devi scegliere un tipo di istanza più grande.
Per problemi urgenti, contatta Supporto AWS.