View a markdown version of this page

Prerequisiti per utilizzare Apache Iceberg Tables come destinazione - Amazon Data Firehose

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Prerequisiti per utilizzare Apache Iceberg Tables come destinazione

Scegliete tra le seguenti opzioni per completare i prerequisiti richiesti.

Prerequisiti per la consegna a Iceberg Tables in Amazon S3

Prima di iniziare, completa i seguenti prerequisiti.

  • Crea un bucket Amazon S3: devi creare un bucket Amazon S3 per aggiungere il percorso del file di metadati durante la creazione delle tabelle. Per ulteriori informazioni, consulta Creare un bucket S3.

  • Crea un ruolo IAM con le autorizzazioni richieste: Firehose necessita di un ruolo IAM con autorizzazioni specifiche per AWS Glue accedere alle tabelle e scrivere dati su Amazon S3. Lo stesso ruolo viene utilizzato per concedere AWS Glue l'accesso ai bucket Amazon S3. È necessario questo ruolo IAM quando si crea una tabella Iceberg e uno stream Firehose. Per ulteriori informazioni, consulta Concedi a Firehose l'accesso alle tabelle Amazon S3.

  • Creazione di tabelle Apache Iceberg: se si configurano chiavi univoche nel flusso Firehose per aggiornamenti ed eliminazioni, Firehose verifica se la tabella e le chiavi uniche esistono come parte della creazione dello stream. In questo scenario, è necessario creare tabelle prima di creare il flusso Firehose. È possibile utilizzare AWS Glue per creare tabelle Apache Iceberg. Per ulteriori informazioni, consulta Creazione di tabelle Apache Iceberg. Se non si configurano chiavi univoche nello stream Firehose, non è necessario creare tabelle Iceberg prima di creare uno stream Firehose.

    Nota

    Firehose supporta la versione e il formato di tabella seguenti per le tabelle Apache Iceberg.

    • Versione in formato tabella: Firehose supporta solo il formato tabella V2. Non create tabelle in formato V1, altrimenti si verifica un errore e i dati vengono invece inviati al bucket di errore S3.

    • Formato di archiviazione dati: Firehose scrive i dati su Apache Iceberg Tables in formato Parquet.

    • Funzionamento a livello di riga: Firehose supporta la modalità Merge-on-Read (MOR) di scrittura dei dati su Apache Iceberg Tables.

Prerequisiti per la distribuzione su Amazon S3 Tables

Per fornire dati ai bucket da tabella Amazon S3, completa i seguenti prerequisiti.

  • Crea un bucket S3 Table, un namespace, tabelle nel table bucket e altri passaggi di integrazione descritti in Guida introduttiva ad Amazon S3 Tables. I nomi delle colonne devono essere in minuscolo a causa delle limitazioni imposte dall'integrazione del catalogo S3 Tables, come specificato nelle limitazioni di integrazione del catalogo di tabelle S3.

  • Crea un ruolo IAM con le autorizzazioni richieste: Firehose necessita di un ruolo IAM con autorizzazioni specifiche per AWS AWS Glue accedere alle tabelle e scrivere dati nelle tabelle in un bucket di tabelle Amazon S3. Per scrivere su tabelle in un bucket di tabelle Amazon S3, devi anche fornire al ruolo IAM le autorizzazioni richieste. Le autorizzazioni richieste per il catalogo Amazon S3 Tables dipendono dalla modalità di controllo degli accessi utilizzata:

    • Controllo degli accessi IAM: il ruolo di consegna Firehose richiede le autorizzazioni IAM direttamente sulle risorse di Amazon S3 Tables.

    • Controllo degli accessi a Lake Formation: il ruolo di consegna Firehose richiede le AWS AWS Lake Formation autorizzazioni per gestire l'accesso alle risorse della tabella. AWS Lake Formation utilizza il proprio modello di autorizzazioni che consente un controllo granulare degli accessi per le risorse del Data Catalog.

    Questo ruolo IAM viene configurato quando si crea uno stream Firehose. Per ulteriori informazioni, consulta Concedere a Firehose l'accesso alle tabelle Amazon S3.

Per step-by-step l'integrazione, consulta il blog Crea un data lake per lo streaming di dati con Amazon S3 Tables e Amazon Data Firehose. Per ulteriori informazioni, consulta anche Using Amazon S3 Tables with AWS analytics services.