Connessioni unificate - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connessioni unificate

AWS recentemente ha introdotto una nuova funzionalità chiamata "SageMaker LakeHouse Connessioni» o "Connessioni AWS Glue unificate». Questa funzionalità consente di creare connessioni che possono essere utilizzate da più AWS servizi, come AWS Glue e Amazon Athena. Quando crei una fonte di dati in Amazon Athena, noterai una sezione che si riferisce agli input di AWS Glue connessione. In questo caso, Amazon Athena creerà automaticamente una AWS Glue connessione, includendo eventuali proprietà Amazon Athena specifiche nella sezione `AthenaProperties` della connessione.

D'altra parte, se crei una connessione direttamente in AWS Glue, ti verrà richiesto solo di inserire proprietà specifiche per AWS Glue e Apache Spark, che verranno memorizzate nelle sezioni `` e ConnectionProperties `SparkProperties` della connessione.

Entrambi questi scenari comportano la creazione di una «connessione unificata», ma le connessioni create in Amazon Athena sono configurate solo per l'uso interno Amazon Athena, mentre le connessioni create in AWS Glue sono configurate solo per l'uso interno. AWS Glue Tuttavia, è possibile aggiornare queste connessioni con le proprietà mancanti (una delle due Amazon Athena o le proprietà Spark) in modo che possano essere utilizzate da entrambi i servizi. Amazon SageMaker AI Unified Studio si occupa di questa operazione automaticamente inserendo tutte le proprietà necessarie (ConnectionProperties``, `AthenaProperties` e `SparkProperties`) sulla AWS Glue connessione, assicurando che la connessione possa essere utilizzata da entrambi AWS Glue e Amazon Athena.

È importante notare che, sebbene le chiamiamo «connessioni unificate», le connessioni create Amazon Athena internamente AWS Glue o singolarmente non sono realmente unificate a meno che non siano configurate correttamente per l'uso da parte di entrambi i servizi. Solo le connessioni create tramite SageMaker Unified Studio sono realmente unificate e utilizzabili da più servizi pronti all'uso.

Inoltre, le connessioni create in non AWS Glue sono visibili in Amazon Athena perché Amazon Athena visualizza fonti di dati, che includono un riferimento a una AWS Glue connessione ma non sono la AWS Glue connessione stessa. Allo stesso modo, le connessioni create in non Amazon Athena sono visibili in AWS Glue Studio perché AWS Glue Studio filtra qualsiasi connessione che non è stata configurata con le impostazioni necessarie per AWS Glue.

AWS Glue Studio crea connessioni unificate per impostazione predefinita. Nella AWS Glue console, è possibile visualizzare la versione della connessione nella tabella delle connessioni nella pagina delle connessioni, nella pagina dei dettagli delle connessioni e nella tabella delle connessioni nella pagina dei dettagli del lavoro.

La versione della connessione è visibile nei dettagli della connessione:

La schermata mostra i dettagli sulla connessione v2.

La versione della connessione è visibile anche quando si visualizzano tutte le connessioni.

La schermata mostra i dettagli sulla connessione v2.

Infine, la versione della connessione è visibile nella scheda Dettagli del processo per un processo.

La schermata mostra i dettagli sulla connessione v2.

Con le connessioni di versione 2, sono disponibili le seguenti funzionalità estese di connettività dati:

  • Individuazione del tipo di connessione: Supporto per la creazione di connessioni utilizzando modelli standardizzati. AWS Glue rileva automaticamente i tipi di connessione accessibili dall'utente e gli ingressi richiesti e opzionali per un determinato tipo di connessione.

  • Riusabilità: definizioni di connessione riutilizzabili su motori e strumenti di elaborazione AWS dati come, e. AWS Glue Amazon Athena Amazon SageMaker AI Le connessioni ora contengono AthenaProperties, SparkProperties, PythonProperties che consentono di specificare proprietà di connessione environment/service specifiche per il calcolo oltre alle proprietà comuni memorizzate in. ConnectionProperties Athena ora crea connessioni AWS Glue specificando proprietà specifiche di Athena nella mappa delle proprietà. AthenaProperties

  • Anteprima dei dati: possibilità di sfogliare i metadati e visualizzare in anteprima i dati da origini connesse.

  • Metadati dei connettori: è possibile utilizzare connessioni riutilizzabili per scoprire i metadati delle tabelle.

  • Segreti collegati al servizio: gli utenti possono fornire le credenziali di autenticazione necessarie OAuth, di base o personalizzate nella richiesta. CreateConnection L' CreateConnection API crea un Service Linked Secret nel tuo account e memorizza le credenziali per tuo conto.

Tipi di autenticazione di supportati

Le connessioni unificate supportano i seguenti tipi di autenticazione:

  • BASIC: la maggior parte dei tipi di connessione al database e dei tipi di AWS Glue connessione esistenti supporta l'autenticazione di base, che consiste in un nome utente e una password. In precedenza, la denominazione delle chiavi SecretsManager era specifica del connettore e, ad esempio, poteva essere user, username, UserName, opensearch.net.http.auth.user, ecc. È qui che le connessioni unificate standardizzavano i tipi di connessione di autenticazione di base sulle chiavi USERNAME e PASSWORD.

  • OAUTH2— La maggior parte dei tipi di connessione SaaS lanciati di recente supporta il OAuth2 protocollo.

  • PERSONALIZZATO: alcuni tipi di connessione dispongono di altri meccanismi di autenticazione come Google, BigQuery in cui gli utenti sono tenuti a fornire il JSON che ricevono da Google. BigQuery

Considerazioni

Quando si crea una connessione unificata per le origini dati, considerare le seguenti differenze:

  • Quando si crea una connessione unificata tramite AWS Glue Studio, le credenziali dell'utente vengono archiviate al Gestione dei segreti AWS posto della connessione stessa. Ciò significa che ora i processi devono accedere a Secrets Manager.

  • Se i processi vengono eseguiti in un VPC, richiedono un endpoint VPC o un gateway NAT per accedere a Gestione dei segreti AWS e Secure Token Service (STS), il che comporta costi aggiuntivi.

  • Per alcune fonti di dati (Redshift, SQL Server, MySQL, Oracle, PostgreSQL), la creazione di una connessione unificata tramite richiede l'accesso a e. AWS Glue Studio AWS STS Gestione dei segreti AWS Ciò è necessario per stabilire una connessione sicura e recuperare le credenziali necessarie per accedere a queste origini dati all'interno del cloud privato virtuale (VPC).

  • La creazione di una connessione unificata tramite AWS Glue Studio richiede un ruolo IAM con autorizzazioni per accedere Gestione dei segreti AWS e gestire le risorse VPC (se si utilizza un VPC):

    • gestore dei segreti: GetSecretValue

    • gestore dei segreti: PutSecretValue

    • gestore dei segreti: DescribeSecret

    • ec2: CreateNetworkInterface

    • ec2: DeleteNetworkInterface

    • ec2: DescribeNetworkInterfaces

    • ec2: DescribeSubnets