Fase 3 nuovi tentativi Eccezioni al di fuori dei passaggi Tentativi di invocazione Tentativi di backend Riprova le best practice

Riprova per le funzioni durevoli Lambda

Le funzioni durevoli offrono funzionalità di ripetizione automatica che rendono le applicazioni resilienti ai guasti transitori. L'SDK gestisce i nuovi tentativi a due livelli: ripetuti passaggi per gli errori della logica aziendale e i tentativi di backend per gli errori dell'infrastruttura.

Fase 3 nuovi tentativi

Quando si verifica un'eccezione non rilevata in un passaggio, l'SDK riprova automaticamente il passaggio in base alla strategia di ripetizione configurata. I nuovi tentativi di passaggio sono operazioni bloccate che consentono all'SDK di sospendere l'esecuzione e riprenderla in un secondo momento senza perdere i progressi.

Comportamento dei tentativi successivi

La tabella seguente descrive come l'SDK gestisce le eccezioni all'interno dei passaggi:

Scenario	Cosa succede	Impatto della misurazione
Eccezione relativa ai tentativi di nuovi tentativi rimanenti	L'SDK crea un checkpoint per il nuovo tentativo e sospende la funzione. Alla chiamata successiva, il passaggio riprova con il ritardo di backoff configurato.	1 operazione più errore, dimensione del payload
Eccezione in fase iniziale senza tentativi di riprova rimanenti	Il passaggio ha esito negativo e genera un'eccezione. Se il codice del gestore non rileva questa eccezione, l'intera esecuzione fallisce.	1 operazione più errore (dimensione del payload)

Quando è necessario riprovare un passaggio, l'SDK controlla lo stato del nuovo tentativo ed esce dalla chiamata Lambda se non è in esecuzione nessun altro lavoro. Ciò consente all'SDK di implementare ritardi di backoff senza consumare risorse di elaborazione. La funzione riprende automaticamente dopo il periodo di backoff.

Configurazione delle strategie di ripetizione dei passaggi

Configura le strategie di ripetizione dei tentativi per controllare il modo in cui le fasi gestiscono gli errori. È possibile specificare il numero massimo di tentativi, gli intervalli di backoff e le condizioni per i nuovi tentativi. Per un riferimento completo sugli aiutanti, le preimpostazioni e le strategie personalizzate per riprovare le strategie, consulta Retries nella documentazione di Durable Execution SDK.

Eccezioni al di fuori dei passaggi

Quando si verifica un'eccezione non rilevata nel codice del gestore ma al di fuori di qualsiasi passaggio, l'SDK contrassegna l'esecuzione come non riuscita. Ciò garantisce che gli errori nella logica dell'applicazione vengano rilevati e segnalati correttamente.

Scenario	Cosa succede	Impatto della misurazione
Eccezione nel codice del gestore al di fuori di qualsiasi passaggio	L'SDK contrassegna l'esecuzione come NON RIUSCITA e restituisce l'errore. L'eccezione non viene ritentata automaticamente.	Errore nella dimensione del payload

Per abilitare un nuovo tentativo automatico per il codice soggetto a errori, inseriscilo in un unico passaggio con una strategia di riprova. I passaggi prevedono un nuovo tentativo automatico con backoff configurabile, mentre il codice al di fuori dei passaggi fallisce immediatamente.

Tentativi di invocazione

I tentativi a livello di invocazione vengono gestiti in modo diverso a seconda di come si tenta di richiamare la funzione durevole Lambda. La tabella seguente descrive come i diversi tipi di invocazione possono influenzare i nuovi tentativi a livello di invocazione.

Tipo di invocazione	Cosa succede
Invocazione sincrona	Lambda non ritenta automaticamente l'invocazione in caso di errore durante l'esecuzione durevole della funzione. I nuovi tentativi in caso di errore di chiamata dipenderanno dall'origine della chiamata sincrona. Ad esempio, utilizzano l' AWS SDK e, per impostazione predefinita, vengono ritentati automaticamente. InternalFailure ThrottlingException
Invocazione asincrona	Se l'esecuzione di una funzione duratura fallisce (ad esempio, entra in uno stato FAILED, STOPED o TIMED_OUT), Lambda non ritenta l'esecuzione. Questo è diverso dalle funzioni Lambda standard, in cui Lambda riprova la funzione in caso di errori di chiamata asincrona. L'`MaximumRetryAttempts`impostazione per le chiamate asincrone non si applica alle esecuzioni durevoli. Se configuri una coda di lettere morte (DLQ) per la funzione, Lambda invia l'evento di attivazione al DLQ.
ESM (Event Source Mapping)	Per impostazione predefinita, Lambda riprova l'intero batch finché non ha esito positivo. Per le origini di flusso (DynamoDB e Kinesis), è possibile configurare il numero massimo di tentativi che Lambda effettua quando la funzione restituisce un errore. Vedi il raggruppamento delle mappature delle sorgenti degli eventi. Per Amazon SQS ESM, puoi configurare il numero massimo di tentativi tramite un DLQ sulla coda Amazon SQS originale. Vedi configurare Amazon SQS ESM. In alternativa, puoi prendere in considerazione un DLQ a livello di funzione e Lambda invierà l'evento di attivazione fallito al DLQ. Vedi la funzione DLQ. Se sei interessato a ricevere un registro degli eventi che hanno avuto esito negativo su tutti i tentativi di elaborazione o degli eventi per i tentativi di elaborazione riusciti, puoi configurare le destinazioni per ESM. Vedi destinazioni asincrone di invocazione.
Trigger diretto	Dipende dal «Trigger». Ad esempio, Lambda elabora le funzioni attivate dalle notifiche di eventi di Amazon S3 in modo asincrono. Consulta Elaborare le notifiche degli eventi di Amazon SQS con Lambda. Lambda elabora le funzioni attivate dalle notifiche di eventi di Amazon SNS, in modo asincrono. Consulta Richiamo delle funzioni Lambda con le notifiche di Amazon SNS. Il comportamento di ripetizione delle chiamate asincrone è riportato sopra nella voce della tabella «Richiamata asincrona». Se Amazon SNS non è in grado di raggiungere Lambda o il messaggio viene rifiutato, Amazon SNS riprova a intervalli crescenti per diverse ore. Per ulteriori informazioni, consulta Affidabilità nelle domande frequenti su Amazon SNS. API Gateway richiamerà Lambda in modo sincrono e restituirà la risposta di errore autentica al richiedente. Vedi i tentativi di invocazione. Il comportamento dei nuovi tentativi di invocazione sincrona è riportato sopra nella voce della tabella «Richiamata sincrona». Vedi ogni trigger diretto per maggiori dettagli.

Tentativi di backend

I nuovi tentativi di backend si verificano quando Lambda rileva guasti dell'infrastruttura, errori di runtime o quando l'SDK non è in grado di comunicare con il servizio di esecuzione durevole. Lambda riprova automaticamente questi errori per aiutare le funzioni durevoli a riprendersi da problemi transitori dell'infrastruttura.

Scenari di nuovi tentativi nel backend

Lambda riprova automaticamente la funzione quando si verificano i seguenti scenari:

Errori interni del servizio: quando Lambda o il servizio di esecuzione durevole restituisce un errore 5xx, che indica un problema temporaneo del servizio.
Limitazione: quando la funzione viene limitata a causa di limiti di concorrenza o quote di servizio.
Timeout: quando l'SDK non riesce a raggiungere il servizio di esecuzione durevole entro il periodo di timeout.
Errori di inizializzazione della sandbox: quando Lambda non è in grado di inizializzare l'ambiente di esecuzione.
Errori di runtime: quando il runtime Lambda rileva errori esterni al codice della funzione, come errori di esaurimento della memoria o arresti anomali del processo.
Errori del token di checkpoint non valido: quando il token del checkpoint non è più valido, in genere a causa di modifiche dello stato sul lato del servizio.

La tabella seguente descrive come l'SDK gestisce questi scenari:

Scenario	Cosa succede	Impatto della misurazione
Errore di runtime esterno al gestore durevole (OOM, timeout, crash)	Lambda riprova automaticamente la chiamata. L'SDK riproduce a partire dall'ultimo checkpoint, saltando i passaggi completati.	Errore: dimensione del payload + 1 operazione per nuovo tentativo
Errore di servizio (5xx) o timeout durante la chiamata alle API/`CheckpointDurableExecutionGetDurableExecutionState`	Lambda riprova automaticamente la chiamata. L'SDK viene riprodotto a partire dall'ultimo checkpoint.	Errore: dimensione del payload + 1 operazione per nuovo tentativo
Limitazione (429) o token di checkpoint non valido durante la chiamata alle API/`CheckpointDurableExecutionGetDurableExecutionState`	Lambda ritenta automaticamente la chiamata con un backoff esponenziale. L'SDK viene riprodotto a partire dall'ultimo checkpoint.	Errore: dimensione del payload + 1 operazione per nuovo tentativo
Errore del client (4xx, tranne 429 e token non valido) quando/API `CheckpointDurableExecution` `GetDurableExecutionState`	L'SDK contrassegna l'esecuzione come NON RIUSCITA. Non si verifica alcun nuovo tentativo automatico perché l'errore indica un problema permanente.	Errore: dimensione del payload

I tentativi di backend utilizzano il backoff esponenziale e continuano fino al successo della funzione o al raggiungimento del timeout di esecuzione. Durante la riproduzione, l'SDK salta i checkpoint completati e continua l'esecuzione dell'ultima operazione riuscita, assicurando che la funzione non riesegua il lavoro completato.

Riprova le best practice

Segui queste best practice per configurare le strategie di riprova:

Configura strategie esplicite di nuovi tentativi: non fare affidamento sul comportamento predefinito dei nuovi tentativi in produzione. Configura strategie di riprova esplicite con un numero massimo di tentativi e intervalli di backoff appropriati per il tuo caso d'uso.
Utilizza tentativi condizionali: implementa la shouldRetry logica per riprovare solo gli errori transitori (limiti di velocità, timeout) e fallire rapidamente in caso di errori permanenti (errori di convalida, non rilevati).
Imposta il numero massimo di tentativi appropriato: equilibrio tra resilienza e tempo di esecuzione. Troppi tentativi possono ritardare il rilevamento degli errori, mentre troppo pochi possono causare errori non necessari.
Utilizza il backoff esponenziale: il backoff esponenziale riduce il carico sui servizi a valle e aumenta la probabilità di ripristino in caso di guasti transitori.
Raccogli il codice soggetto a errori in fasi: il codice al di fuori dei passaggi non può essere riprovato automaticamente. Raccogli le chiamate API esterne, le query sul database e altre operazioni soggette a errori in fasi con strategie di riprova.
Monitora le metriche dei tentativi: monitora le operazioni di ripetizione dei tentativi e gli errori di esecuzione in CloudWatch Amazon per identificare modelli e ottimizzare le strategie di ripetizione dei tentativi.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Strumento di mappatura dell'origine degli eventi

Idempotenza