Condivisione dei dati in Amazon Redshift - Amazon Redshift

Amazon Redshift non supporterà più la creazione di nuove UDF Python a partire dal 1º novembre 2025. Se desideri utilizzare le UDF Python, creale prima di tale data. Le UDF Python esistenti continueranno a funzionare normalmente. Per ulteriori informazioni, consulta il post del blog.

Condivisione dei dati in Amazon Redshift

Con Amazon Redshift puoi condividere i dati in modo sicuro tra i cluster Amazon Redshift o con altri servizi AWS. La condivisione dei dati consente di condividere i dati in tempo reale, senza doverne creare una copia o spostarli. I Database Administrator e i tecnici dei dati possono utilizzare la condivisione dei dati per fornire un accesso sicuro e in sola lettura ai dati per scopi di analisi, mantenendo al contempo il controllo sui dati. Gli analisti di dati, i professionisti della business intelligence e i data scientist possono sfruttare i dati condivisi per ottenere informazioni approfondite senza duplicare o spostare i dati. I casi d’uso comuni includono la condivisione dei dati con i partner, l’abilitazione dell’analisi interfunzionale e la facilitazione della democratizzazione dei dati all’interno di un’organizzazione. Nelle sezioni seguenti vengono descritti i dettagli della configurazione e della gestione della condivisione di dati in Amazon Redshift.

Con la condivisione dei dati di Amazon Redshift puoi condividere in modo sicuro l’accesso ai dati in tempo reale a livello di cluster, gruppi di lavoro, Account AWS e Regioni AWS Amazon Redshift senza spostare o copiare manualmente i dati. Poiché i dati sono in tempo reale, tutti gli utenti possono visualizzare le informazioni più recenti e coerenti in Amazon Redshift, man mano che vengono aggiornate.

È possibile condividere i dati tra cluster con provisionig, gruppi di lavoro serverless, zone di disponibilità, Account AWS e Regioni AWS. È possibile condividere tra tipi di cluster e tra cluster con provisioning e serverless.

Puoi condividere gli oggetti del database per le operazioni di lettura e scrittura tra diversi cluster Amazon Redshift o gruppi di lavoro Amazon Redshift serverless all'interno dello stesso Account AWS o da un Account AWS a un altro. Puoi leggere e scrivere dati anche tra le Regioni. È possibile assegnare le autorizzazioni come SELECT, INSERT e UPDATE per tabelle diverse e USAGE e CREATE per schemi diversi. I dati sono attivi e disponibili per tutti i warehouse non appena viene eseguita una transazione di scrittura.

Casi d'uso per la condivisione dei dati per Amazon Redshift

La condivisione dei dati di Amazon Redshift è particolarmente utile per questi casi d'uso:

  • Supporto dei diversi tipi di carichi di lavoro business-critical: utilizzare un cluster centrale di estrazione, trasformazione e caricamento (ETL) che condivide i dati con più cluster di business intelligence (BI) o di analisi. Questo approccio fornisce isolamento del carico di lavoro in lettura e storno di addebito per singoli carichi di lavoro. È possibile ridimensionare e scalare il singolo calcolo del carico di lavoro in base ai requisiti di prezzo e prestazioni specifici del carico di lavoro.

  • Abilitazione della collaborazione tra gruppi: abilitare la collaborazione continua tra team e gruppi di business per analisi più ampie, data science e analisi di impatto tra più prodotti.

  • Fornire dati come servizio: condividere i dati come servizio nell'intera organizzazione.

  • Condivisione dei dati tra ambienti: condividere i dati tra ambienti di sviluppo, test e produzione. È possibile migliorare l'agilità del team condividendo i dati a diversi livelli di granularità.

  • Accesso alle licenze ai dati in Amazon Redshift: elenca i set di dati di Amazon Redshift nel catalogo AWS Data Exchange che i clienti possono individuare, a cui possono registrarsi e su cui possono eseguire query in pochi minuti.

Casi d’uso di condivisione dei dati per l’accesso in scrittura

La condivisione dei dati per le scritture ha diversi casi d’uso importanti:

  • Aggiornamento dei dati di origine aziendali relativi al producer: puoi condividere i dati come servizio all’interno dell’organizzazione, ma in questo modo i consumer possono anche eseguire azioni sui dati di origine. Ad esempio, possono comunicare i valori aggiornati o confermare la ricezione dei dati. Questi sono solo un paio di casi d’uso aziendali possibili.

  • Inserimento dei record aggiuntivi sul producer: i consumer possono aggiungere record ai dati di origine originali. Questi possono essere contrassegnati come provenienti dal consumer, se necessario.

Per informazioni specifiche su come eseguire operazioni di scrittura su un’unità di condivisione dati, consulta Condivisione dell’accesso in scrittura ai dati.

Condivisione di dati a diversi livelli in Amazon Redshift

Con Amazon Redshift, è possibile condividere i dati a diversi livelli. Questi livelli includono database, schemi, tabelle, viste (incluse viste regolari, tardive e materializzate) e funzioni definite dall'utente (FDU) SQL. È possibile creare più unità di condivisione dati per un dato database. Una unità di condivisione dati può contenere oggetti provenienti da più schemi nel database in cui viene creata la condivisione.

Grazie a questa flessibilità nella condivisione dei dati, si ottiene un controllo degli accessi a grana fine. È possibile personalizzare questo controllo per diversi utenti e aziende che hanno bisogno di accedere ai dati di Amazon Redshift.

Gestione della coerenza della condivisione dei dati in Amazon Redshift

Amazon Redshift fornisce coerenza transazionale su tutti i cluster di producer e consumer e condivide viste aggiornate e coerenti dei dati con tutti i consumer.

È possibile aggiornare continuamente i dati nel cluster producer. Tutte le query su un cluster di consumer all'interno di una transazione leggono lo stesso stato dei dati condivisi. Amazon Redshift non prende in considerazione i dati che sono stati modificati da un'altra transazione nel cluster di producer di cui è stato eseguito il commit dopo l'inizio della transazione sul cluster di consumer. Dopo il commit della modifica dei dati nel cluster producer, le nuove transazioni nel cluster consumer possono eseguire immediatamente una query sui dati aggiornati.

L'elevata coerenza elimina i rischi di report aziendali a bassa affidabilità che potrebbero contenere risultati non validi durante la condivisione dei dati. Questo fattore è particolarmente importante per l'analisi finanziaria o dove i risultati potrebbero essere utilizzati per preparare set di dati che vengono utilizzati per addestrare modelli di machine learning.