Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risoluzione dei problemi relativi al componente aggiuntivo Amazon SageMaker HyperPod Observability
Utilizza le seguenti linee guida per risolvere problemi comuni con il componente aggiuntivo Amazon SageMaker HyperPod (SageMaker HyperPod) observability.
Risoluzione dei problemi relativi alle metriche mancanti in Grafana gestito da Amazon
Se le metriche non compaiono nelle dashboard di Grafana gestito da Amazon, segui queste fasi per identificare e risolvere il problema.
Verifica della connessione tra il Servizio gestito da Amazon per Prometheus e Grafana gestito da Amazon
-
Accedi alla console di Grafana gestito da Amazon.
-
Nel riquadro a sinistra, scegli Tutto workspaces.
-
Nella tabella Workspace, scegli il tuo spazio di lavoro.
-
Nella pagina dei dettagli dello spazio di lavoro, scegli la scheda Origini dati.
-
Verifica che l’origine dati del Servizio gestito da Amazon per Prometheus esista.
-
Controlla le impostazioni di connessione:
-
Conferma che l’URL dell’endpoint sia corretto.
-
Verifica che l’autenticazione IAM sia configurata correttamente.
-
Scegli Test Connection (Connessione di prova). Verifica che lo stato sia Origine dati funzionante.
-
Verifica dello stato del componente aggiuntivo Amazon EKS
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Selezionare il cluster.
-
Selezionare la scheda Componenti aggiuntivi.
-
Verifica che il componente aggiuntivo di SageMaker HyperPod osservabilità sia elencato e che il suo stato sia ATTIVO.
-
Se lo stato non è ACTIVE, consulta Risoluzione degli errori di installazione del componente aggiuntivo.
Verifica dell’associazione Pod Identity
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Selezionare il cluster.
-
Nella pagina dei dettagli del cluster, scegli la scheda Accesso.
-
Nella tabella Associazioni Pod Identity, scegli l’associazione con i valori di proprietà seguenti:
-
Spazio dei nomi:
hyperpod-observability -
Account del servizio:
hyperpod-observability-operator-otel-collector -
Componente aggiuntivo:
amazon-sagemaker-hyperpod-observability
-
-
Assicurati che il ruolo IAM collegato a questa associazione abbia le autorizzazioni seguenti.
-
Assicurati che il ruolo IAM collegato a questa associazione abbia la policy di attendibilità seguente. Verifica che l’ARN di origine e l’account di origine siano corretti.
Verifica della limitazione (della larghezza di banda della rete) del Servizio gestito da Amazon per Prometheus
-
Accedi Console di gestione AWS e apri la console Service Quotas all'indirizzo. https://console.aws.amazon.com/servicequotas/
-
Nella casella Quote gestite, cerca e seleziona Servizio gestito da Amazon per Prometheus.
-
Scegli la quota Serie attiva per spazio di lavoro.
-
Nella scheda Quote a livello di risorsa, seleziona lo spazio di lavoro del Servizio gestito da Amazon per Prometheus.
-
Assicurati che l’utilizzo sia inferiore alla tua quota attuale.
-
Se hai raggiunto il limite di quota, seleziona lo spazio di lavoro scegliendo il pulsante di opzione a sinistra, quindi seleziona Richiedi un aumento a livello di risorsa.
Verifica che la memorizzazione nella cache KV e il routing intelligente siano abilitati
Se manca la KVCache Metrics dashboard, la funzionalità non è abilitata o la porta non è menzionata nel. modelMetrics Per ulteriori informazioni su come abilitarla, consulta i passaggi 1 e 3 di seguitoConfigura la memorizzazione nella cache KV e il routing intelligente per migliorare le prestazioni.
Se manca la Intelligent Router Metrics dashboard, abilita la funzione per farli apparire. Per ulteriori informazioni su come abilitarla, consultaConfigura la memorizzazione nella cache KV e il routing intelligente per migliorare le prestazioni.
Risoluzione degli errori di installazione del componente aggiuntivo
Se l’installazione del componente aggiuntivo Observability non riesce, utilizza la procedura seguente per diagnosticare e risolvere il problema.
Controlla lo stato di integrità della sonda
-
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Selezionare il cluster.
-
Selezionare la scheda Componenti aggiuntivi.
-
Scegli il componente aggiuntivo non riuscito.
-
Consulta la sezione Problemi di integrità.
-
Se il problema di integrità è correlato alle credenziali o a Pod Identity, consulta Verifica dell’associazione Pod Identity. Assicurati inoltre che il componente aggiuntivo Pod Identity Agent sia in esecuzione nel cluster.
-
Verifica la presenza di errori nei log del gestore. Per istruzioni, consulta Revisione dei log del gestore.
-
Contatta l' AWS assistenza per i dettagli del problema.
Revisione dei log del gestore
-
Scarica il pod del gestore dei componenti aggiuntivi:
kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager -
Per problemi urgenti, contatta Supporto.
Revisione di tutti i pod di osservabilità
Tutti i pod creati dal componente aggiuntivo SageMaker HyperPod Observability si trovano nel namespace. hyperpod-observability Per ottenere lo stato di questi pod, utilizza il comando seguente.
kubectl get pods -n hyperpod-observability
Cerca i pod il cui stato è pending o crashloopbackoff. Utilizza il comando seguente per ottenere i log di questi pod in sospeso o in errore.
kubectl logs -n hyperpod-observability pod-name
Se non trovi errori nei log, utilizza il comando seguente per descrivere i pod e cercare gli errori.
kubectl describe -n hyperpod-observability pod pod-name
Per ottenere più contesto, esegui questi due comandi per visualizzare le descrizioni delle implementazioni e dei DaemonSet per questi pod.
kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name
Risoluzione dei problemi relativi ai pod bloccati nello stato in sospeso
Se vedi che ci sono dei pod bloccati nello stato pending, assicurati che il nodo sia abbastanza grande da contenerli tutti. Per verificare che lo sia, procedi come segue.
Apri la console Amazon EKS a https://console.aws.amazon.com/eks/home#/clusters
. -
Scegli il cluster.
-
Scegli la scheda Calcolo del cluster.
-
Scegli il nodo con il tipo di istanza più piccolo.
-
Nella sezione di allocazione della capacità, cerca i pod disponibili.
-
Se non ci sono pod disponibili, devi scegliere un tipo di istanza più grande.
Per problemi urgenti, contatta Supporto AWS.
Risoluzione dei problemi di osservabilità su gruppi di istanze con restrizioni
Utilizza la seguente guida per risolvere problemi specifici dei cluster con Restricted Instance Groups.
I pod di osservabilità non iniziano su nodi con restrizioni
Se i pod di osservabilità non si avviano su nodi con restrizioni, controlla lo stato e gli eventi dei pod:
kubectl get pods -n hyperpod-observability -o wide kubectl describe podpod-name-n hyperpod-observability
Le cause più comuni includono:
-
Errori di estrazione delle immagini: gli eventi del pod possono mostrare errori di estrazione delle immagini se le immagini del contenitore di osservabilità non sono ancora elencate nei nodi con restrizioni. Assicurati di utilizzare la versione più recente del componente aggiuntivo Observability. Se il problema persiste dopo l'aggiornamento, contatta. Supporto
-
Tolleranze di contaminazione: verificate che le specifiche del pod includano la tolleranza richiesta per i nodi con restrizioni. Il componente aggiuntivo a partire dalla versione aggiunge
v1.0.5-eksbuild.1automaticamente questa tolleranza quando il supporto RIG è abilitato. Se utilizzi una versione precedente, esegui l'aggiornamento alla versione più recente.
Visualizzazione dei log dei pod su nodi con restrizioni
Il kubectl logs comando non funziona per i pod in esecuzione su nodi con restrizioni. Questa è una limitazione prevista perché il percorso di comunicazione richiesto per lo streaming dei log non è disponibile sui nodi con restrizioni.
Per visualizzare i log dai nodi con restrizioni, usa la dashboard Cluster Logs in Amazon Managed Grafana, che interroga direttamente i log. CloudWatch Puoi filtrare per ID di istanza, flusso di log, livello di log e ricerca a testo libero per trovare le voci di log pertinenti.
Errori di risoluzione DNS in cluster con nodi standard e limitati
Nei cluster ibridi (cluster con gruppi di istanze standard e limitati), i pod sui nodi standard possono subire dei timeout di risoluzione DNS quando cercano di raggiungere AWS endpoint di servizio come Amazon Managed Service for Prometheus o. CloudWatch
Causa: il kube-dns servizio dispone di endpoint sia da pod CoredNS standard che da pod CoredNS RIG. I node pod standard non possono raggiungere gli endpoint RIG CoredNS a causa dell'isolamento della rete. Quando si kube-proxy bilancia il carico di una richiesta DNS da un pod di nodi standard a un endpoint RIG CoredNS, la richiesta scade.
Risoluzione: imposta il kube-dns servizio internalTrafficPolicy: Local in modo che i pod raggiungano CoredNS solo sul loro nodo locale:
kubectl patch svc kube-dns -n kube-system -p '{"spec":{"internalTrafficPolicy":"Local"}}'
Dopo aver applicato questa patch, riavvia i pod di osservabilità interessati:
kubectl delete pods -n hyperpod-observability -l app.kubernetes.io/name=hyperpod-node-collector
Metriche dei nodi con restrizioni che non raggiungono Amazon Managed Service for Prometheus
Se le metriche dei nodi con restrizioni non vengono visualizzate nel tuo spazio di lavoro Amazon Managed Service for Prometheus:
-
Verifica le autorizzazioni del ruolo di esecuzione. Assicurati che il ruolo di esecuzione per il gruppo di istanze ristrette disponga dell'
aps:RemoteWriteautorizzazione per il tuo spazio di lavoro Prometheus. Per ulteriori informazioni, consulta Prerequisiti aggiuntivi per i gruppi di istanze con restrizioni. -
Controlla lo stato del pod node collector. Esegui il comando seguente e verifica che i pod del collettore di nodi siano in esecuzione su nodi con restrizioni:
kubectl get pods -n hyperpod-observability | grep node-collector -
Controlla le implementazioni del collettore centrale. Nei cluster con nodi limitati, il componente aggiuntivo implementa un collettore centrale per confine di rete. Verifica che esista un raccoglitore centrale per ogni limite:
kubectl get deployments -n hyperpod-observability | grep central-collector -
Verifica la presenza di errori negli eventi del pod.
kubectl describeUtilizzatelo sui collector pod per cercare gli eventi di errore:kubectl describe podcollector-pod-name-n hyperpod-observability
Se il problema persiste dopo aver verificato quanto sopra, contatta. Supporto
La verifica dell'identità del Pod non si applica ai nodi del gruppo di istanze con restrizioni
I Verifica dell’associazione Pod Identity passaggi per la risoluzione dei problemi si applicano solo ai nodi standard. Sui nodi con restrizioni, il componente aggiuntivo utilizza il ruolo di esecuzione del gruppo di istanze del cluster per AWS l'autenticazione anziché Amazon EKS Pod Identity. Se nei nodi con restrizioni mancano delle metriche, verifica le autorizzazioni del ruolo di esecuzione anziché l'associazione Pod Identity.
Fluent Bit non funziona su nodi con restrizioni
Questo è il comportamento previsto. Fluent Bit non viene intenzionalmente distribuito su nodi con restrizioni. I log dei nodi con restrizioni vengono pubblicati CloudWatch attraverso la SageMaker HyperPod piattaforma indipendentemente dal componente aggiuntivo di osservabilità. Utilizza la dashboard Cluster Logs in Amazon Managed Grafana per visualizzare questi log.