Metriche mancanti Add-on errori di installazione Revisione di tutti i pod di osservabilità Pod bloccati nello stato in sospeso Risoluzione dei problemi di osservabilità su gruppi di istanze con restrizioni

Risoluzione dei problemi relativi al componente aggiuntivo Amazon SageMaker HyperPod Observability

Utilizza le seguenti linee guida per risolvere problemi comuni con il componente aggiuntivo Amazon SageMaker HyperPod (SageMaker HyperPod) observability.

Risoluzione dei problemi relativi alle metriche mancanti in Grafana gestito da Amazon

Se le metriche non compaiono nelle dashboard di Grafana gestito da Amazon, segui queste fasi per identificare e risolvere il problema.

Verifica la connessione Amazon Managed Service for Prometheus-Amazon Managed Grafana

Accedi alla console di Grafana gestito da Amazon.
Nel riquadro a sinistra, scegli Tutto workspaces.
Nella tabella Workspace, scegli il tuo spazio di lavoro.
Nella pagina dei dettagli dello spazio di lavoro, scegli la scheda Origini dati.
Verifica che l’origine dati del Servizio gestito da Amazon per Prometheus esista.
Controlla le impostazioni di connessione:
- Conferma che l’URL dell’endpoint sia corretto.
- Verifica che l’autenticazione IAM sia configurata correttamente.
- Scegli Test Connection (Connessione di prova). Verifica che lo stato sia Origine dati funzionante.

Verifica dello stato del componente aggiuntivo Amazon EKS

Apri la console Amazon EKS all'indirizzo https://console.aws.amazon.com/eks/home#/clusters.
Selezionare il cluster.
Scegli la scheda Add-ons.
Verifica che il componente aggiuntivo SageMaker HyperPod di osservabilità sia elencato e che il suo stato sia ATTIVO.
Se lo stato non è ACTIVE, consulta Risoluzione degli errori di installazione del componente aggiuntivo.

Verifica dell’associazione Pod Identity

Apri la console Amazon EKS all'indirizzo https://console.aws.amazon.com/eks/home#/clusters.
Selezionare il cluster.
Nella pagina dei dettagli del cluster, scegli la scheda Accesso.
Nella tabella Associazioni Pod Identity, scegli l’associazione con i valori di proprietà seguenti:
- Spazio dei nomi: hyperpod-observability
- Account del servizio: hyperpod-observability-operator-otel-collector
- Add-on: amazon-sagemaker-hyperpod-observability

Assicurati che il ruolo IAM collegato a questa associazione abbia le autorizzazioni seguenti.

Assicurati che il ruolo IAM collegato a questa associazione abbia la policy di attendibilità seguente. Verifica che l’ARN di origine e l’account di origine siano corretti.

Verifica della limitazione (della larghezza di banda della rete) del Servizio gestito da Amazon per Prometheus

Accedi AWS Management Console e apri la console Service Quotas all'indirizzo. https://console.aws.amazon.com/servicequotas/
Nella casella Quote gestite, cerca e seleziona Servizio gestito da Amazon per Prometheus.
Scegli la quota Serie attiva per spazio di lavoro.
Nella scheda Resource-level quote, seleziona il tuo spazio di lavoro Amazon Managed Service for Prometheus.
Assicurati che l’utilizzo sia inferiore alla tua quota attuale.
Se hai raggiunto il limite di quota, seleziona lo spazio di lavoro scegliendo il pulsante di opzione a sinistra, quindi seleziona Richiedi un aumento a livello di risorsa.

Verifica che la memorizzazione nella cache KV e il routing intelligente siano abilitati

Se manca la KVCache Metrics dashboard, la funzionalità non è abilitata o la porta non è menzionata nel. modelMetrics Per ulteriori informazioni su come abilitarla, consulta i passaggi 1 e 3 di seguitoConfigura la memorizzazione nella cache KV e il routing intelligente.

Se manca la Intelligent Router Metrics dashboard, abilita la funzione per farli apparire. Per ulteriori informazioni su come abilitarla, consultaConfigura la memorizzazione nella cache KV e il routing intelligente.

Risoluzione degli errori di installazione del componente aggiuntivo

Se l’installazione del componente aggiuntivo Observability non riesce, utilizza la procedura seguente per diagnosticare e risolvere il problema.

Controlla lo stato di integrità della sonda

Apri la console Amazon EKS all'indirizzo https://console.aws.amazon.com/eks/home#/clusters.
Selezionare il cluster.
Scegli la scheda Add-ons.
Scegli il componente aggiuntivo non riuscito.
Consulta la sezione Problemi di integrità.
Se il problema di integrità è correlato alle credenziali o a Pod Identity, consulta Verifica dell’associazione Pod Identity. Assicurati inoltre che il componente aggiuntivo Pod Identity Agent sia in esecuzione nel cluster.
Verifica la presenza di errori nei log del gestore. Per istruzioni, consulta Revisione dei log del gestore.
Contatta l' AWS assistenza per i dettagli del problema.

Revisione dei log del gestore

Scarica il pod del gestore dei componenti aggiuntivi:


kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager

Per problemi urgenti, contatta Supporto.

Revisione di tutti i pod di osservabilità

Tutti i pod creati dal componente aggiuntivo SageMaker HyperPod Observability si trovano nel namespace. hyperpod-observability Per ottenere lo stato di questi pod, utilizza il comando seguente.


kubectl get pods -n hyperpod-observability

Cerca i pod il cui stato è pending o crashloopbackoff. Utilizza il comando seguente per ottenere i log di questi pod in sospeso o in errore.


kubectl logs -n hyperpod-observability pod-name

Se non trovi errori nei log, utilizza il comando seguente per descrivere i pod e cercare gli errori.


kubectl describe -n hyperpod-observability pod pod-name

Per ottenere più contesto, esegui questi due comandi per visualizzare le descrizioni delle implementazioni e dei DaemonSet per questi pod.


kubectl describe -n hyperpod-observability deployment deployment-name


kubectl describe -n hyperpod-observability daemonset daemonset-name

Risoluzione dei problemi relativi ai pod bloccati nello stato in sospeso

Se vedi che ci sono dei pod bloccati nello stato pending, assicurati che il nodo sia abbastanza grande da contenerli tutti. Per verificare che lo sia, procedi come segue.

Apri la console Amazon EKS all'indirizzo https://console.aws.amazon.com/eks/home#/clusters.
Scegli il cluster.
Scegli la scheda Calcolo del cluster.
Scegli il nodo con il tipo di istanza più piccolo.
Nella sezione di allocazione della capacità, cerca i pod disponibili.
Se non ci sono pod disponibili, devi scegliere un tipo di istanza più grande.

Per problemi urgenti, contatta Supporto AWS.

Risoluzione dei problemi di osservabilità su gruppi di istanze con restrizioni

Utilizza la seguente guida per risolvere problemi specifici dei cluster con Restricted Instance Groups.

I pod di osservabilità non iniziano su nodi con restrizioni

Se i pod di osservabilità non si avviano su nodi con restrizioni, controlla lo stato e gli eventi dei pod:


kubectl get pods -n hyperpod-observability -o wide
kubectl describe pod pod-name -n hyperpod-observability

Le cause più comuni includono:

Errori di estrazione delle immagini: gli eventi del pod possono mostrare errori di estrazione delle immagini se le immagini del contenitore di osservabilità non sono ancora elencate nei nodi con restrizioni. Assicurati di utilizzare la versione più recente del componente aggiuntivo Observability. Se il problema persiste dopo l'aggiornamento, contatta. Supporto
Tolleranze di contaminazione: verificate che le specifiche del pod includano la tolleranza richiesta per i nodi con restrizioni. Il componente aggiuntivo a partire dalla versione aggiunge v1.0.5-eksbuild.1 automaticamente questa tolleranza quando il supporto RIG è abilitato. Se utilizzi una versione precedente, esegui l'aggiornamento alla versione più recente.

Visualizzazione dei log dei pod su nodi con restrizioni

Il kubectl logs comando non funziona per i pod in esecuzione su nodi con restrizioni. Questa è una limitazione prevista perché il percorso di comunicazione richiesto per lo streaming dei log non è disponibile sui nodi con restrizioni.

Per visualizzare i log dai nodi con restrizioni, usa la dashboard Cluster Logs in Amazon Managed Grafana, che interroga direttamente i log. CloudWatch Puoi filtrare per ID di istanza, flusso di log, livello di log e ricerca a testo libero per trovare le voci di log pertinenti.

Errori di risoluzione DNS in cluster con nodi standard e limitati

Nei cluster ibridi (cluster con gruppi di istanze standard e limitati), i pod sui nodi standard possono subire dei timeout di risoluzione DNS quando cercano di raggiungere AWS endpoint di servizio come Amazon Managed Service for Prometheus o. CloudWatch

Causa: il kube-dns servizio dispone di endpoint sia da pod CoredNS standard che da pod CoredNS RIG. I node pod standard non possono raggiungere gli endpoint RIG CoredNS a causa dell'isolamento della rete. Quando si kube-proxy bilancia il carico di una richiesta DNS da un pod di nodi standard a un endpoint RIG CoredNS, la richiesta scade.

Risoluzione: imposta il kube-dns servizio internalTrafficPolicy: Local in modo che i pod raggiungano CoredNS solo sul loro nodo locale:


kubectl patch svc kube-dns -n kube-system -p '{"spec":{"internalTrafficPolicy":"Local"}}'

Dopo aver applicato questa patch, riavvia i pod di osservabilità interessati:


kubectl delete pods -n hyperpod-observability -l app.kubernetes.io/name=hyperpod-node-collector

Metriche dei nodi con restrizioni che non raggiungono Amazon Managed Service for Prometheus

Se le metriche dei nodi con restrizioni non vengono visualizzate nel tuo spazio di lavoro Amazon Managed Service for Prometheus:

Verifica le autorizzazioni del ruolo di esecuzione. Assicurati che il ruolo di esecuzione per il gruppo di istanze ristrette disponga dell'aps:RemoteWriteautorizzazione per il tuo spazio di lavoro Prometheus. Per ulteriori informazioni, consulta Prerequisiti aggiuntivi per i gruppi di istanze con restrizioni.
Controlla lo stato del pod node collector. Esegui il comando seguente e verifica che i pod del collettore di nodi siano in esecuzione su nodi con restrizioni:
```
kubectl get pods -n hyperpod-observability | grep node-collector
```
Controlla le implementazioni del collettore centrale. Nei cluster con nodi limitati, il componente aggiuntivo implementa un collettore centrale per confine di rete. Verifica che esista un raccoglitore centrale per ogni limite:
```
kubectl get deployments -n hyperpod-observability | grep central-collector
```
Verifica la presenza di errori negli eventi del pod. kubectl describeUtilizzatelo sui collector pod per cercare gli eventi di errore:
```
kubectl describe pod collector-pod-name -n hyperpod-observability
```

Se il problema persiste dopo aver verificato quanto sopra, contatta. Supporto

La verifica dell'identità del Pod non si applica ai nodi del gruppo di istanze con restrizioni

I Verifica dell’associazione Pod Identity passaggi per la risoluzione dei problemi si applicano solo ai nodi standard. Sui nodi con restrizioni, il componente aggiuntivo utilizza il ruolo di esecuzione del gruppo di istanze del cluster per AWS l'autenticazione anziché Amazon EKS Pod Identity. Se nei nodi con restrizioni mancano delle metriche, verifica le autorizzazioni del ruolo di esecuzione anziché l'associazione Pod Identity.

Fluent Bit non funziona su nodi con restrizioni

Questo è il comportamento previsto. Fluent Bit non viene intenzionalmente distribuito su nodi con restrizioni. I log dei nodi con restrizioni vengono pubblicati CloudWatch attraverso la SageMaker HyperPod piattaforma indipendentemente dal componente aggiuntivo di osservabilità. Utilizza la dashboard Cluster Logs in Amazon Managed Grafana per visualizzare questi log.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Avvisi preconfigurati

Osservabilità con Amazon CloudWatch