Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Importa
<a name="data-wrangler-import"></a>

Puoi utilizzare Amazon SageMaker Data Wrangler per importare dati dalle seguenti *fonti* di dati: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift e Snowflake. Il set di dati che importi può includere fino a 1000 colonne.

**Topics**
+ [Importa i dati da Amazon S3](#data-wrangler-import-s3)
+ [Importazione dei dati da Athena](#data-wrangler-import-athena)
+ [Importazione di dati da Amazon Redshift](#data-wrangler-import-redshift)
+ [Importazione di dati da Amazon EMR](#data-wrangler-emr)
+ [Importazione di dati da Databricks (JDBC)](#data-wrangler-databricks)
+ [Importare dati da Salesforce Data Cloud](#data-wrangler-import-salesforce-data-cloud)
+ [Importazione di dati da Snowflake](#data-wrangler-snowflake)
+ [Importare dati da piattaforme Software as a Service (SaaS)](#data-wrangler-import-saas)
+ [Archiviazione di dati importati](#data-wrangler-import-storage)

Alcune fonti di dati consentono di aggiungere più *connessioni dati*:
+ È possibile connettersi a più cluster Amazon Redshift. Ogni cluster diventa un'origine dati. 
+ Puoi effettuare una query a qualsiasi database Athena del tuo account per importare dati da quel database.


Quando importi un set di dati da un'origine dati, questo viene visualizzato nel flusso di dati. Data Wrangler deduce automaticamente il tipo di dati di ogni colonna del set di dati. Per modificare questi tipi, seleziona la fase **Tipi di dati** e poi **Modifica tipi di dati**.

Quando importi dati da Athena o Amazon Redshift, i dati importati vengono automaticamente archiviati nel bucket AI S3 SageMaker predefinito per AWS la regione in cui utilizzi Studio Classic. Inoltre, Athena archivia i dati visualizzati in anteprima in Data Wrangler in questo bucket. Per ulteriori informazioni, consulta [Archiviazione di dati importati](#data-wrangler-import-storage).

**Importante**  
Il bucket Amazon S3 predefinito potrebbe non avere le impostazioni di sicurezza meno permissive, come la policy del bucket e la crittografia lato server (SSE). Ti consigliamo vivamente di [aggiungere una policy sui bucket per limitare l'accesso ai set di dati importati in Data Wrangler](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-security.html#data-wrangler-security-bucket-policy). 

**Importante**  
Inoltre, se utilizzi la policy gestita per l' SageMaker IA, ti consigliamo vivamente di limitarla alla policy più restrittiva che ti consenta di soddisfare il tuo caso d'uso. Per ulteriori informazioni, consulta [Concedi un'autorizzazione al ruolo IAM per utilizzare Data Wrangler](data-wrangler-security.md#data-wrangler-security-iam-policy).

Tutte le origini dati ad eccezione di Amazon Simple Storage Service (Amazon S3) richiedono di specificare una query SQL per importare i dati. Per ogni query, è necessario specificare quanto segue:
+ **Catalogo dati**
+ **Database**
+ **Tabella**

Puoi specificare il nome del database o del catalogo dati nei menu a discesa o all'interno della query. Di seguito vengono mostrati esempi di query.
+ `select * from example-data-catalog-name.example-database-name.example-table-name`: la query non utilizza nulla di quanto specificato nei menu a discesa dell'interfaccia utente (UI) per l'esecuzione. Interroga `example-table-name` all'interno di `example-database-name` dentro `example-data-catalog-name`
+ `select * from example-database-name.example-table-name`: la query utilizza il catalogo di dati specificato nel menu a discesa **Data catalog** per l'esecuzione. Esegue una query `example-table-name` all'interno di `example-database-name` dentro il catalogo di dati che hai specificato.
+ `select * from example-table-name`: la query richiede di selezionare i campi dei menu a discesa **Data catalog** e **Database name**. Esegue una query `example-table-name` all'interno del catalogo, dentro il detabase e il catalogo di dati che hai specificato.

Il collegamento tra Data Wrangler e l'origine dati è una *connessione.* La connessione viene utilizzata per importare dati dalla propria origine dati.

Esistono i seguenti tipi di connessioni:
+ Diretta
+ Catalogata

Data Wrangler ha sempre accesso ai dati più recenti tramite una connessione diretta. Se i dati in origine dati sono stati aggiornati, è possibile utilizzare la connessione per importare i dati. Ad esempio, se qualcuno aggiunge un file a uno dei tuoi bucket Amazon S3, puoi importare il file.

Una connessione catalogata è il risultato di un trasferimento di dati. I dati nella connessione catalogata non contengono necessariamente i dati più recenti. Ad esempio, potresti configurare un trasferimento di dati tra Salesforce e Amazon S3. Se è disponibile un aggiornamento dei dati di Salesforce, devi trasferirli nuovamente. Puoi automatizzare il processo di trasferimento dei dati. Per ulteriori informazioni sul trasferimento di dati, consultare [Importare dati da piattaforme Software as a Service (SaaS)](#data-wrangler-import-saas).

## Importa i dati da Amazon S3
<a name="data-wrangler-import-s3"></a>

È possibile utilizzare Amazon Simple Storage Service (Amazon S3) per memorizzare e recuperare qualsiasi volume di dati, in qualunque momento e da qualunque luogo tramite il Web. Puoi eseguire queste attività utilizzando Console di gestione AWS, che è un'interfaccia Web semplice e intuitiva, e l'API Amazon S3. Se hai archiviato il set di dati localmente, ti consigliamo di aggiungerlo a un bucket S3 per l'importazione in Data Wrangler. Per sapere come fare, consulta [Caricamento di un oggetto nel bucket](https://docs.aws.amazon.com/AmazonS3/latest/gsg/PuttingAnObjectInABucket.html) nella Guida per l'utente di Amazon Simple Storage Service. 

Data Wrangler utilizza [S3 Select](https://aws.amazon.com/s3/features/#s3-select) per consentirti di visualizzare in anteprima i tuoi file Amazon S3 in Data Wrangler. Sono previsti costi standard per ogni anteprima del file. Per ulteriori informazioni sui prezzi, consulta la scheda **Richieste e recupero dati** sui [Prezzi di Amazon S3](https://aws.amazon.com/s3/pricing/). 

**Importante**  
Se prevedi di esportare un flusso di dati e avviare un job Data Wrangler, importare dati in un feature SageMaker store di intelligenza artificiale o creare una pipeline SageMaker AI, tieni presente che queste integrazioni richiedono che i dati di input di Amazon S3 si trovino nella stessa regione. AWS 

**Importante**  
Se stai importando un file CSV, assicurati che soddisfi i seguenti requisiti:  
Un record nel set di dati non può contenere più di una riga.
Una barra rovesciata, `\`, è l'unico carattere di escape valido.
Il set di dati deve utilizzare uno dei seguenti delimitatori:  
Virgola – `,`
Due punti – `:`
Punto e virgola – `;`
Pipeline – `|`
Scheda – `[TAB]`
Per risparmiare spazio, puoi importare file CSV compressi.

Data Wrangler ti dà la possibilità di importare l'intero set di dati o di campionarne una parte. Per Amazon S3 sono disponibili le seguenti opzioni di campionamento:
+ Nessuno: importa l'intero set di dati.
+ First K: campiona le prime righe K del set di dati, dove K è un numero intero specificato.
+ Randomizzato: preleva un campione a caso della dimensione specificata dall'utente.
+ Stratificato: preleva un campione a caso stratificato. Un campione stratificato mantiene il rapporto dei valori di una colonna.

Dopo aver importato i dati, puoi anche utilizzare il trasformatore di campionamento per prelevare uno o più campioni dall'intero set di dati. Per ulteriori informazioni sul trasformatore di campionamento, consulta [Campionamento](data-wrangler-transform.md#data-wrangler-transform-sampling).

Puoi utilizzare uno dei seguenti identificatori di risorse per importare i dati:
+ Un URI Amazon S3 che utilizza un bucket Amazon S3 o un punto di accesso Amazon S3
+ Un alias del punto di accesso Amazon S3
+ Un nome della risorsa Amazon (ARN) che utilizza un Punto di accesso Amazon S3 o un bucket Amazon S3

I punti di accesso Amazon S3 sono endpoint di rete denominati che vengono collegati ai bucket. Ogni punto di accesso dispone di autorizzazioni e controlli di rete distinti che puoi configurare. Per maggiori informazioni sui punti di accesso, vedi [Gestione dell'accesso ai dati con Punti di accesso Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html).

**Importante**  
Se utilizzi un Amazon Resource Name (ARN) per importare i tuoi dati, deve trattarsi di una risorsa situata nella stessa Regione AWS che stai utilizzando per accedere ad Amazon SageMaker Studio Classic.

Puoi importare un singolo file o più file come set di dati. Puoi utilizzare l'operazione di importazione multifile quando si dispone di un set di dati suddiviso in file separati. Prende tutti i file da una directory Amazon S3 e li importa come un unico set di dati. Per informazioni sui tipi di file che puoi importare e su come importarli, consulta le seguenti sezioni.

------
#### [ Single File Import ]

È possibile importare singoli file nei seguenti formati:
+ Comma Separated Values (CSV)
+ Parquet
+ Javascript Object Notation (JSON)
+ Optimized Row Columnar (ORC)
+ Immagine: Data Wrangler utilizza OpenCV per importare immagini. Per ulteriori informazioni sui formati di immagine supportati, consulta [Lettura e scrittura di file immagine](https://docs.opencv.org/3.4/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56).

Per i file formattati in JSON, Data Wrangler supporta sia le righe JSON (.jsonl) che i documenti JSON (.json). Quando visualizzi l'anteprima dei dati, mostra automaticamente il codice JSON in formato tabulare. Per i documenti JSON annidati di dimensioni superiori a 5 MB, Data Wrangler mostra lo schema della struttura e gli array come valori nel set di dati. Utilizza gli operatori **Flatten structured** e **Explode array** per visualizzare i valori annidati in formato tabulare. Per ulteriori informazioni, consultare [Unnest dei dati JSON](data-wrangler-transform.md#data-wrangler-transform-flatten-column) e [Esplodi array](data-wrangler-transform.md#data-wrangler-transform-explode-array).

Quando scegli un set di dati, puoi rinominarlo, specificare il tipo di file e identificare la prima riga come intestazione.

Puoi importare un set di dati che hai suddiviso in più file in un bucket Amazon S3 in un'unica fase di importazione.

**Per importare un set di dati in Data Wrangler da un singolo file archiviato in Amazon S3:**

1. Se al momento non sei nella scheda **Import**(Importa), seleziona **Import**.

1. In **Available** (Disponibile), seleziona **Amazon S3**.

1. Dalla sezione **Import tabular, image, or time-series data from S3** (Importa dati tabulari, di immagini o di serie temporali da S3), esegui una delle seguenti operazioni:
   + Scegli un bucket Amazon S3 dalla visualizzazione tabulare e vai al file che stai importando.
   + Per **S3 source**, specifica un bucket Amazon S3 o un URI Amazon S3 e seleziona **Go** (Vai). Amazon S3 URIs può essere in uno dei seguenti formati:
     + `s3://amzn-s3-demo-bucket/example-prefix/example-file`
     + *example-access-point*- *aqfqprnstn7aefdfbarligizwgyfouse1a* -s3alias/datasets/ *example-file*
     + `s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file`

1. **Scegli il set di dati per aprire il riquadro delle impostazioni di importazione.**

1. Se il file CSV ha un'intestazione, seleziona la casella di controllo accanto a **Add header to table**(Aggiungi intestazione alla tabella).

1. Usa la **Preview** (Anteprima) della tabella per visualizzare l'anteprima del set di dati. Questa tabella mostra fino a 100 righe. 

1. Nel riquadro **Details** (Dettagli), verifica o modifica il **Name** (Nome) e il **File Type** (tipo di file) per il set di dati. Se aggiungi un **Name** che contiene spazi, questi spazi vengono sostituiti da caratteri di sottolineatura quando il set di dati viene importato. 

1. Specificare la configurazione di campionamento che si desidera utilizzare. 

1. Scegli **Importa**.

------
#### [ Multifile Import ]

Di seguito sono riportati i requisiti per l'importazione di più file:
+ I file devono trovarsi nella stessa cartella del bucket Amazon S3.
+ I file devono condividere la stessa intestazione o non averne alcuna.

Ogni file deve essere in uno dei seguenti formati:
+ CSV
+ Parquet
+ Optimized Row Columnar (ORC)
+ Immagine: Data Wrangler utilizza OpenCV per importare immagini. Per ulteriori informazioni sui formati di immagine supportati, consulta [Lettura e scrittura di file immagine](https://docs.opencv.org/3.4/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56).

Utilizza la procedura seguente per importare più file.

**Per importare un set di dati in Data Wrangler da più file archiviati nella directory Amazon S3:**

1. Se al momento non sei nella scheda **Import**(Importa), seleziona **Import**.

1. In **Available** (Disponibile), seleziona **Amazon S3**.

1. Dalla sezione **Import tabular, image, or time-series data from S3** (Importa dati tabulari, di immagini o di serie temporali da S3), esegui una delle seguenti operazioni:
   + Scegli un bucket Amazon S3 dalla visualizzazione tabulare e vai alla cartella contente i file che stai importando.
   + Per **S3 source**, specifica il bucket Amazon S3 o un URI Amazon S3 con i tuoi file e seleziona **Go** (Vai). Sono validi i seguenti: URIs
     + `s3://amzn-s3-demo-bucket/example-prefix/example-prefix`
     + `example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/`
     + `s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix`

1. Seleziona la cartella contenente i file da importare. Ogni file deve essere in uno dei formati supportati. I file devono essere dello stesso tipo di dati.

1. Se la cartella contiene file CSV con intestazioni, seleziona la casella di controllo accanto a **First row is header** (La prima riga è l'intestazione).

1. Se i tuoi file sono nidificati all'interno di altre cartelle, seleziona la casella di controllo accanto a **Include nested directories** (Includi directory nidificate)

1. (Facoltativo) Scegliete **Add filename column** (Aggiungi colonna nome file ) e aggiungi una colonna al set di dati che mostri il nome del file per ogni osservazione.

1. (Facoltativo) Per impostazione predefinita, Data Wrangler non mostra l'anteprima di una cartella. È possibile attivare l'anteprima selezionando il pulsante blu **Preview off** (Anteprima disattivata). Un'anteprima mostra le prime 10 righe dei primi 10 file nella cartella.

1. Nel riquadro **Details** (Dettagli), verifica o modifica il **Name** (Nome) e il **File Type** (tipo di file) per il set di dati. Se aggiungi un **Name** che contiene spazi, questi spazi vengono sostituiti da caratteri di sottolineatura quando il set di dati viene importato. 

1. Specificare la configurazione di campionamento che si desidera utilizzare. 

1. Scegliere **Import dataset** (Importa set di dati).

------

Puoi anche utilizzare i parametri per importare un sottoinsieme di file che corrispondono a un modello. I parametri consentono di scegliere in modo più selettivo i file da importare. Per iniziare a utilizzare i parametri, modifica l'origine dati e applicali al percorso che stai utilizzando per importare i dati. Per ulteriori informazioni, consulta [Riutilizzo dei flussi di dati per set di dati diversi](data-wrangler-parameterize.md).

## Importazione dei dati da Athena
<a name="data-wrangler-import-athena"></a>

Usa Amazon Athena per importare dati da Amazon Simple Storage Service (Amazon S3) in Data Wrangler. In Athena, scrivi query SQL standard per selezionare i dati che importi da Amazon S3. Per ulteriori informazioni, consulta [Che cos'è Amazon Athena?](https://docs.aws.amazon.com/athena/latest/ug/what-is.html)

Puoi usare il Console di gestione AWS per configurare Amazon Athena. È necessario creare almeno un database in Athena prima di iniziare a eseguire le query. Per maggiori informazioni su come iniziare a lavorare con Athena, consulta la sezione [Nozioni di base](https://docs.aws.amazon.com/athena/latest/ug/getting-started.html).

Athena è direttamente integrata con Data Wrangler. Puoi scrivere query Athena senza dover uscire dall'interfaccia utente di Data Wrangler.

Oltre a scrivere semplici query Athena in Data Wrangler, puoi anche usare:
+ Gruppi di lavoro Athena per la gestione dei risultati delle query. Per ulteriori informazioni sui gruppi di lavoro, consulta [Gestione dei risultati di query](#data-wrangler-import-manage-results).
+ Configurazioni del ciclo di vita per l'impostazione dei periodi di conservazione dei dati. Per altre informazioni sulla conservazione dei dati, consulta [Impostazione dei periodi di conservazione dei dati](#data-wrangler-import-athena-retention).

### Esegui una query su Athena all'interno di Data Wrangler
<a name="data-wrangler-import-athena-query"></a>

**Nota**  
Data Wrangler non supporta le query federate.

Se utilizzi AWS Lake Formation con Athena, assicurati che le autorizzazioni IAM di Lake Formation non abbiano la precedenza sulle autorizzazioni IAM per il database. `sagemaker_data_wrangler`

Data Wrangler ti dà la possibilità di importare l'intero set di dati o di campionarne una parte. Per Athena sono disponibili le seguenti opzioni di campionamento:
+ Nessuno: importa l'intero set di dati.
+ First K: campiona le prime righe K del set di dati, dove K è un numero intero specificato.
+ Randomizzato: preleva un campione a caso della dimensione specificata dall'utente.
+ Stratificato: preleva un campione a caso stratificato. Un campione stratificato mantiene il rapporto dei valori di una colonna.

La procedura seguente mostra come importare un set di dati da Athena in Data Wrangler.

**Per importare un set di dati in Data Wrangler da Athena**

1. Accedi [ad Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Scegli **Studio**

1. Scegli **Launch app**.

1. Dall'elenco a discesa, seleziona **Studio**.

1. Scegli l'icona Home.

1. Selezionare **Data** (Dati).

1. Scegli **Data Wrangler**.

1. Scegli **Import data** (Importa dati).

1. In **Available** (Disponibile), seleziona **Amazon Athena**.

1. Per **Data Catalog**, scegli un catalogo di dati.

1. Utilizza l'elenco a discesa **Database** per selezionare il database su cui eseguire le query. Quando si seleziona un database, è possibile visualizzare in anteprima tutte le tabelle del database utilizzando le **tabelle** elencate in **Details** (Dettagli).

1. (Opzionale) Scegli **Advanced configuration** (Advanced configuration (Configurazione avanzata).

   1. Scegli un **Workgroup** (Gruppo di lavoro).

   1. Se il tuo gruppo di lavoro non ha imposto la posizione di output di Amazon S3 o se non utilizzi un gruppo di lavoro, specifica un valore per **Amazon S3 location of query results** (Posizione Amazon S3 dei risultati delle query).

   1. (Facoltativo) Per **Data retention period**, (Periodo di conservazione dei dati) seleziona la casella di controllo per impostare un periodo di conservazione dei dati e specifica il numero di giorni in cui archiviare i dati prima che vengano eliminati.

   1. (Facoltativo) Per impostazione predefinita, Data Wrangler salva la connessione. È possibile scegliere di deselezionare la casella di controllo e non salvare la connessione.

1. Per **Sampling** (Campionamento), scegliete un metodo di campionamento. Scegliete **None** (Nessuno) per disattivare il campionamento.

1. Inserisci la tua query nell'editor di query e usa il pulsante **Esegui** (Run) per eseguire la query. Dopo una query riuscita, puoi visualizzare l'anteprima del risultato nell'editor.
**Nota**  
I dati di Salesforce utilizzano il tipo `timestamptz`. Se staieseguendo una query sulla colonna del timestamp che hai importato in Athena da Salesforce, trasmetti i dati nella colonna al tipo `timestamp`. La seguente query imposta la colonna del timestamp nel tipo corretto.  

   ```
   # cast column timestamptz_col as timestamp type, and name it as timestamp_col
   select cast(timestamptz_col as timestamp) as timestamp_col from table
   ```

1. Per importare i risultati della query, seleziona **Import** (Importa).

Dopo aver completato la procedura precedente, il set di dati che hai interrogato e importato viene visualizzato nel flusso di Data Wrangler.

Per impostazione predefinita, Data Wrangler salva le impostazioni di connessione come nuova connessione. Quando importi i tuoi dati, la query che hai già specificato appare come una nuova connessione. Le connessioni salvate memorizzano informazioni sui gruppi di lavoro Athena e sui bucket Amazon S3 che stai utilizzando. Quando ti connetti nuovamente alla origine dati, puoi scegliere la connessione salvata.

### Gestione dei risultati di query
<a name="data-wrangler-import-manage-results"></a>

Data Wrangler supporta l'utilizzo dei gruppi di lavoro Athena per gestire i risultati delle query all'interno di un account AWS . Puoi specificare una posizione di output Amazon S3 per ogni gruppo di lavoro. Puoi anche specificare se l'output della query può essere inviato a diverse ubicazioni Amazon S3. Per ulteriori informazioni, consulta [Uso dei gruppi di lavoro per controllare l'accesso alle query e i costi](https://docs.aws.amazon.com/athena/latest/ug/manage-queries-control-costs-with-workgroups.html).

Il tuo gruppo di lavoro potrebbe essere configurato per applicare la posizione di output delle query di Amazon S3. Non puoi modificare la posizione di output dei risultati delle query per tali gruppi di lavoro.

Se non utilizzi un gruppo di lavoro o non specifichi una posizione di output per le tue query, Data Wrangler utilizza il bucket Amazon S3 predefinito nella stessa AWS regione in cui si trova l'istanza di Studio Classic per archiviare i risultati delle query Athena. Crea tabelle temporanee in questo database per spostare l'output della query in questo bucket Amazon S3. Elimina queste tabelle dopo l'importazione dei dati; tuttavia il database, `sagemaker_data_wrangler`, persiste. Per ulteriori informazioni, consulta [Archiviazione di dati importati](#data-wrangler-import-storage).

Per utilizzare i gruppi di lavoro Athena, configura la policy IAM che consente l'accesso ai gruppi di lavoro. Se utilizzi un `SageMaker AI-Execution-Role`, ti consigliamo di aggiungere la policy al ruolo. Per ulteriori informazioni sulla policy IAM per i gruppi di lavoro, consulta [Policy IAM per l'accesso ai gruppi di lavoro](https://docs.aws.amazon.com/athena/latest/ug/workgroups-iam-policy.html). Per esempi di policy per i gruppi di lavoro, consulta [Esempi di policy per i gruppi di lavoro](https://docs.aws.amazon.com/athena/latest/ug/example-policies-workgroup.html).

### Impostazione dei periodi di conservazione dei dati
<a name="data-wrangler-import-athena-retention"></a>

Data Wrangler imposta automaticamente un periodo di conservazione dei dati per i risultati della query. I risultati vengono eliminati dopo la durata del periodo di conservazione. Ad esempio, il periodo di conservazione predefinito è di cinque giorni. I risultati della query vengono eliminati dopo cinque giorni. Questa configurazione è progettata per aiutarti a ripulire i dati che non utilizzi più. La pulizia dei dati impedisce l'accesso agli utenti non autorizzati. Inoltre, aiuta a controllare i costi di archiviazione dei dati su Amazon S3.

Se non imposti un periodo di conservazione, la configurazione del ciclo di vita di Amazon S3 determina la durata di archiviazione degli oggetti. Il criterio di conservazione dei dati che hai specificato per la configurazione del ciclo di vita rimuove i risultati delle query che sono più vecchi della configurazione del ciclo di vita che hai specificato. Per ulteriori informazioni, consulta [Impostazione della configurazione del ciclo di vita in un bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/how-to-set-lifecycle-configuration-intro.html).

Data Wrangler utilizza le configurazioni del ciclo di vita di Amazon S3 per gestire la conservazione e la scadenza dei dati. È necessario concedere le autorizzazioni del ruolo di esecuzione di Amazon SageMaker Studio Classic IAM per gestire le configurazioni del ciclo di vita dei bucket. Utilizza la seguente procedura per concedere le autorizzazioni.

Per concedere le autorizzazioni a gestire la configurazione del ciclo di vita, procedi come segue.

1. Accedi Console di gestione AWS e apri la console IAM all'indirizzo. [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/)

1. Scegli **Ruoli**.

1. Nella barra di ricerca, specifica il ruolo di esecuzione di Amazon SageMaker AI utilizzato da Amazon SageMaker Studio Classic.

1. Seleziona il ruolo.

1. Scegli **Add Permissions (Aggiungi autorizzazioni)**.

1. Scegli **Create inline policy** (Crea policy in linea).

1. Per **Service** (Servizio), specifica **S3** e sceglilo.

1. Nella sezione **Leggi**, scegli **GetLifecycleConfiguration**.

1. Nella sezione **Scrittura**, scegli **PutLifecycleConfiguration**.

1. In **Risorse**, scegli **Specifiche**.

1. Per **Azioni**, seleziona l'icona a forma di freccia accanto a **Gestione delle autorizzazioni**.

1. Scegli **PutResourcePolicy**.

1. In **Risorse**, scegli **Specifiche**.

1. Scegli la casella di controllo accanto a **Qualsiasi in questo account**.

1. Scegli **Verifica policy**.

1. Per **Nome**, specificare un nome.

1. Scegli **Crea policy**.

## Importazione di dati da Amazon Redshift
<a name="data-wrangler-import-redshift"></a>

Amazon Redshift è un servizio di data warehouse nel cloud in scala petabyte interamente gestito. La prima fase necessaria per creare un data warehouse è avviare un set di nodi, detto cluster Amazon Redshift. Dopo avere effettuato il provisioning del cluster, puoi caricare il set di dati e quindi eseguire query di analisi dei dati. 

Puoi connetterti e eseguire query su uno o più cluster Amazon Redshift in Data Wrangler. Per utilizzare questa opzione di importazione, devi creare almeno un cluster in Amazon Redshift. Per scoprire come, consulta la pagina [Nozioni di base su Amazon Redshift](https://docs.aws.amazon.com/redshift/latest/gsg/getting-started.html).

Puoi generare i risultati della query Amazon Redshift in una delle seguenti posizioni:
+ Il bucket Amazon S3 predefinito
+ Una posizione di output Amazon S3 specificata

Puoi importare l'intero set di dati o campionarne una parte. Per Amazon Redshift sono disponibili le seguenti opzioni di campionamento:
+ Nessuno: importa l'intero set di dati.
+ First K: campiona le prime righe K del set di dati, dove K è un numero intero specificato.
+ Randomizzato: preleva un campione a caso della dimensione specificata dall'utente.
+ Stratificato: preleva un campione a caso stratificato. Un campione stratificato mantiene il rapporto dei valori di una colonna.

Il bucket Amazon S3 predefinito si trova nella stessa AWS regione in cui si trova l'istanza di Studio Classic per archiviare i risultati delle query di Amazon Redshift. Per ulteriori informazioni, consulta [Archiviazione di dati importati](#data-wrangler-import-storage).

Per il bucket Amazon S3 predefinito o per il bucket specificato, sono disponibili le seguenti opzioni di crittografia:
+ La crittografia AWS lato servizio predefinita con una chiave gestita Amazon S3 (SSE-S3)
+  Una AWS Key Management Service chiave () specificata AWS KMS

Una AWS KMS chiave è una chiave di crittografia che puoi creare e gestire. Per ulteriori informazioni sulle chiavi KMS, consulta [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html).

Puoi specificare una AWS KMS chiave utilizzando la chiave ARN o l'ARN del tuo account. AWS 

Se utilizzi la policy gestita da IAM, `AmazonSageMakerFullAccess`, per concedere a un ruolo l’autorizzazione per utilizzare Data Wrangler in Studio Classic, il nome dell’**utente del database** deve avere il prefisso `sagemaker_access`.

Utilizza le seguenti procedure per scoprire come aggiungere un nuovo cluster. 

**Nota**  
Data Wrangler utilizza l'API dati Amazon Redshift Data con credenziali temporanee. Per ulteriori informazioni su questa API, consulta [Uso dell'API dati di Amazon Redshift](https://docs.aws.amazon.com//redshift/latest/mgmt/data-api.html) nella Guida alla gestione di Amazon Redshift. 

**Per connettere a un cluster Amazon Redshift**

1. Accedi [ad Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Scegli **Studio**

1. Scegli **Launch app**.

1. Dall'elenco a discesa, seleziona **Studio**.

1. Scegli l'icona Home.

1. Selezionare **Data** (Dati).

1. Scegli **Data Wrangler**.

1. Scegli **Import data** (Importa dati).

1. In **Available** (Disponibile), seleziona **Amazon Athena**.

1. Scegli **Amazon Redshift**.

1. Scegli **Temporary credentials (IAM)** (Credenziali temporanee (IAM) per **Type** (Tipo)

1. Inserisci un **Nome di connessione**. Questo è un nome usato da Data Wrangler per identificare questa connessione. 

1. Inserisci l'**identificatore del cluster** per specificare a quale cluster desideri connetterti. Nota: inserisci solo l'identificatore del cluster e non l'endpoint completo del cluster Amazon Redshift.

1. Inserisci il **Database Name** (Nome del database) a cui vuoi collegarti.

1. Inserisci un **Database User** (utente del database) per identificare l'utente che desideri utilizzare per connetterti al database. 

1. Per **UNLOAD IAM Role** (SCARICARE il ruolo IAM), inserisci l'ARN del ruolo IAM che il cluster Amazon Redshift dovrebbe assumere per spostare e scrivere dati su Amazon S3. Per ulteriori informazioni su questo ruolo, consulta [Autorizzazione di Amazon Redshift ad accedere ad AWS altri servizi per tuo conto](https://docs.aws.amazon.com/redshift/latest/mgmt/authorizing-redshift-service.html) nella Amazon Redshift Management Guide. 

1. Scegli **Connetti**.

1. (Facoltativo) Per **Amazon S3 output location** (Posizione di output di Amazon S3), specifica l'URI S3 per archiviare i risultati della query.

1. (Facoltativo) Per l'**KMS key ID** (ID della chiave KMS), specifica l'ARN della chiave o la chiave AWS KMS o l'alias. L'immagine seguente mostra dove è possibile trovare entrambe le chiavi in Console di gestione AWS.  
![\[La posizione dell' AWS KMS alias ARN, del nome dell'alias e dell'ARN della chiave nella console. AWS KMS\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/kms-alias-redacted.png)

L'immagine seguente mostra tutti i campi della procedura precedente.

![\[Il pannello Aggiungi connessione Amazon Redshift.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/redshift-connection.png)


Una volta stabilita con successo, la connessione viene visualizzata come origine dati in **Data Import** (Importazione dati). Seleziona questa origine dati eseguire una query sul tuo database e importare i dati.

**Per eseguire una query e importare i dati da Amazon Redshift**

1. Seleziona la connessione sulla quale vuoi effettuare la query da **Data Sources** (Origine dati).

1. Seleziona uno **Schema**. Per saperne di più sugli schemi di Amazon Redshift, vedi [Schemi](https://docs.aws.amazon.com/redshift/latest/dg/r_Schemas_and_tables.html) nella Guida per gli sviluppatori di database di Amazon Redshift.

1. (Facoltativo) In **Advanced configuration** (Configurazione avanzata), specifica il metodo di **Sampling** (Campionamento) che desideri utilizzare.

1. Inserisci la tua query nell'editor di query e scegli **Run** (Esegui) per eseguire la query. Dopo una query riuscita, puoi visualizzare l'anteprima del risultato nell'editor.

1. Seleziona **Import dataset** (Importa set di dati) per importare il set di dati che è stato interrogato. 

1. Inserire un **Dataset name** (Nome set di dati). Se aggiungi un **Dataset name** che contiene spazi, questi spazi vengono sostituiti da caratteri di sottolineatura quando il set di dati viene importato. 

1. Scegliere **Aggiungi**.

Per modificare un set di dati, esegui le operazioni descritte di seguito.

1. Accedi al tuo flusso Data Wrangler.

1. Scegli la \$1 accanto a **Source - Sampled**.

1. Modifica i dati che stai importando.

1. Seleziona **Apply (Applica)**

## Importazione di dati da Amazon EMR
<a name="data-wrangler-emr"></a>

Puoi usare Amazon EMR come fonte di dati per il tuo flusso Amazon SageMaker Data Wrangler. Amazon EMR è una piattaforma cluster gestita che puoi utilizzare per elaborare e analizzare grandi quantità di dati. Per ulteriori informazioni su Amazon EMR consulta [Che cos'è Amazon EMR su EKS?](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html) Per importare un set di dati da EMR, devi connetterti ad esso ed effettuare la query. 

**Importante**  
È necessario soddisfare i seguenti prerequisiti per connettersi a un cluster Amazon EMR:  
Hai un Amazon VPC nella regione che stai utilizzando per avviare Amazon SageMaker Studio Classic e Amazon EMR.
Sia Amazon EMR che Amazon SageMaker Studio Classic devono essere avviati in sottoreti private. Possono trovarsi nella stessa sottorete o in diverse sottoreti.
Amazon SageMaker Studio Classic deve essere in modalità solo VPC.  
Per maggiori informazioni sulla creazione di un VPC, consulta [Creazione di un VPC](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-vpcs.html#Create-VPC).  
Per ulteriori informazioni sulla creazione di un VPC, consulta [Connect SageMaker Studio Classic Notebooks in un VPC a risorse esterne](https://docs.aws.amazon.com/vpc/latest/userguide/studio-notebooks-and-internet-access.html).
I cluster Amazon EMR che esegui devono trovarsi nello stesso Amazon VPC.
I cluster Amazon EMR e Amazon VPC devono trovarsi nello stesso account. AWS 
I tuoi cluster Amazon EMR utilizzano Hive o Presto.  
I cluster Hive devono consentire il traffico in entrata dai gruppi di sicurezza di Studio Classic sulla porta 10000.
I cluster Presto devono consentire il traffico in entrata dai gruppi di sicurezza di Studio Classic sulla porta 8889.  
Il numero di porta è diverso per i cluster Amazon EMR che utilizzano ruoli IAM. Passa alla fine della sezione dei prerequisiti per ulteriori informazioni.
Amazon SageMaker Studio Classic deve eseguire Jupyter Lab versione 3. Per informazioni sull'aggiornamento della versione di Jupyter Lab, consulta [Visualizza e aggiorna la JupyterLab versione di un'applicazione dalla console](studio-jl.md#studio-jl-view).
Amazon SageMaker Studio Classic ha un ruolo IAM che controlla l'accesso degli utenti. Il ruolo IAM predefinito che utilizzi per eseguire Amazon SageMaker Studio Classic non prevede policy che ti consentano di accedere ai cluster Amazon EMR. È necessario collegare la policy di concessione delle autorizzazioni al ruolo IAM. Per ulteriori informazioni, consulta [Configurazione della visualizzazione dei cluster Amazon EMR](studio-notebooks-configure-discoverability-emr-cluster.md).
Il ruolo IAM deve anche disporre della seguente policy collegate `secretsmanager:PutResourcePolicy`.
Se utilizzi un dominio Studio Classic già creato, assicurati che `AppNetworkAccessType` sia in modalità solo VPC. Per informazioni sull'aggiornamento di un dominio per utilizzare la modalità solo VPC, vedere [Chiudi e aggiorna Amazon SageMaker Studio Classic](studio-tasks-update-studio.md).
Devi avere Hive o Presto installato nel cluster.
La versione di Amazon EMR deve essere la 5.5.0 o successiva.  
Amazon EMR supporta la terminazione automatica. La terminazione automatica impedisce ai cluster inattivi di funzionare e ti evita di incorrere in costi. Le seguenti sono le versioni che supportano la terminazione automatica:  
Per le versioni 6.x, 6.1.0 o successive.
Per le versioni 5.x, versione 5.30.0 o successive.
Utilizza le pagine seguenti per configurare i ruoli di runtime IAM per il cluster Amazon EMR. È necessario abilitare la crittografia in transito quando si utilizzano ruoli di runtime:  
[Prerequisiti per l'avvio di un cluster Amazon EMR con un ruolo di runtime](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-steps-runtime-roles.html#emr-steps-runtime-roles-configure)
[Avvio di un cluster Amazon EMR con controllo degli accessi basato su ruoli](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-steps-runtime-roles.html#emr-steps-runtime-roles-launch)
È necessario Lake Formation come strumento di governance per i dati all'interno dei database. È inoltre necessario utilizzare il filtro esterno dei dati per il controllo degli accessi.  
Per ulteriori informazioni su Lake Formation, vedi [What is AWS Lake Formation?](https://docs.aws.amazon.com/lake-formation/latest/dg/what-is-lake-formation.html)
Per ulteriori informazioni sull'integrazione di Lake Formation in Amazon EMR, consulta [Integrazione di servizi di terze parti con Lake Formation](https://docs.aws.amazon.com/lake-formation/latest/dg/Integrating-with-LakeFormation.html).
La versione del tuo cluster deve essere 6.9.0 o successiva.
Accesso a Gestione dei segreti AWS. Per maggiori informazioni su Secrets Manager vedi [Cos'è Gestione dei segreti AWS?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html)
I cluster Hive devono consentire il traffico in entrata dai gruppi di sicurezza di Studio Classic sulla porta 10000.

Un Amazon VPC è una rete virtuale logicamente isolata dalle altre reti sul cloud. AWS Amazon SageMaker Studio Classic e il tuo cluster Amazon EMR esistono solo all'interno di Amazon VPC.

Utilizza la seguente procedura per avviare Amazon SageMaker Studio Classic in un Amazon VPC.

Per avviare Studio Classic all’interno di un VPC, procedi come segue.

1. Accedi alla console SageMaker AI all'indirizzo [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Scegli **Launch SageMaker Studio Classic**.

1. Scegli **Configurazione standard**.

1. In **Ruolo di esecuzione predefinito**, scegli il ruolo IAM per configurare Studio Classic.

1. Scegli il VPC su cui hai lanciato i cluster Amazon EMR.

1. In **Subnet** (Sottorete), scegli una sottorete privata.

1. Per i **Security group(s)** (gruppi di sicurezza) specifica i gruppi di sicurezza che stai utilizzando per il controllo tra i tuoi VPC.

1. Scegli **VPC Only** (Solo VPC).

1. (Facoltativo) AWS utilizza una chiave di crittografia predefinita. Puoi anche specificare una chiave AWS Key Management Service per crittografare i dati.

1. Scegli **Next (Successivo)**.

1. In **Studio settings** (Impostazioni Studio), scegli le configurazioni più adatte a te.

1. Scegli **Avanti** per saltare le impostazioni di SageMaker Canvas.

1. Scegli **Avanti** per saltare le RStudio impostazioni.

Se non disponi di un cluster Amazon EMR pronto, utilizza la seguente procedura per crearne uno. Per ulteriori informazioni su Amazon EMR consulta [Che cos'è Amazon EMR su EKS?](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html)

Per creare un cluster, effettua quanto segue:

1. Passare alla Console di gestione AWS.

1. Nella barra di ricerca, specificare **Amazon EMR**.

1. Scegli **Create cluster** (Crea cluster).

1. Per **Cluster name** (Nome cluster inserisci un nome per il tuo cluster.

1. Per **Release**, seleziona la versione di rilascio del cluster.
**Nota**  
Amazon EMR supporta la terminazione automatica per le seguenti versioni:  
Per le versioni 6.x, versioni 6.1.0 o versioni successive
Per le versioni 5.x, versioni 5.30.0 o successive
La terminazione automatica impedisce ai cluster inattivi di funzionare e ti evita di incorrere in costi.

1. (Facoltativo) Per **Applications** (Applicazioni), scegli **Presto**.

1. Scegli l'applicazione che stai eseguendo sul cluster.

1. In **Networking** (Rete), per **Hardware configuration** (Configurazione hardware), specifica le impostazioni di configurazione hardware.
**Importante**  
Per il **networking**, scegli il VPC su cui è in esecuzione Amazon SageMaker Studio Classic e scegli una sottorete privata.

1. In **Security and access** (Sicurezza e accesso), specifica le impostazioni di sicurezza.

1. Scegli **Create** (Crea).

Per un tutorial sulla creazione di un cluster Amazon EMR, consulta [Nozioni di base su Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html). Per informazioni sulle best practice per la configurazione di un cluster, consulta [Considerazioni e best practice](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-ha-considerations.html).

**Nota**  
Per quanto riguarda le migliori pratiche di sicurezza, Data Wrangler può connettersi solo a VPCs sottoreti private. Non puoi connetterti al nodo master a meno che non lo utilizzi AWS Systems Manager per le tue istanze Amazon EMR. Per ulteriori informazioni, vedere [Protezione dell'accesso ai cluster EMR utilizzando AWS Systems Manager](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/).

Attualmente puoi utilizzare i seguenti metodi per accedere a un cluster Amazon EMR:
+ Nessuna autenticazione
+ Lightweight Directory Access Protocol (LDAP)
+ IAM (ruolo Runtime)

Il mancato utilizzo dell'autenticazione o dell'utilizzo di LDAP può richiedere la creazione di più cluster e profili di istanza Amazon EC2. Se sei un amministratore, potresti dover fornire a gruppi di utenti diversi livelli di accesso ai dati. Questi metodi possono comportare un sovraccarico amministrativo che rende più difficile la gestione degli utenti.

Consigliamo di utilizzare un ruolo di runtime IAM che offra a più utenti la possibilità di connettersi allo stesso cluster Amazon EMR. Un ruolo di runtime è un ruolo IAM che puoi assegnare a un utente che si connette a un cluster Amazon EMR. Puoi configurare il ruolo IAM di runtime in modo che disponga di autorizzazioni specifiche per ogni gruppo di utenti.

Utilizza le seguenti sezioni per creare un cluster Amazon EMR Presto o Hive con LDAP attivato.

------
#### [ Presto ]

**Importante**  
Da utilizzare AWS Glue come metastore per le tabelle Presto, seleziona **Usa** **i metadati della tabella Presto** per archiviare i risultati delle tue query Amazon EMR in un catalogo AWS Glue dati quando avvii un cluster EMR. L'archiviazione dei risultati delle query in un catalogo di AWS Glue dati può evitarti di incorrere in addebiti.  
Per eseguire query su set di dati di grandi dimensioni sui cluster Amazon EMR, devi aggiungere le seguenti proprietà al file di configurazione di Presto sui cluster Amazon EMR:  

```
[{"classification":"presto-config","properties":{
"http-server.max-request-header-size":"5MB",
"http-server.max-response-header-size":"5MB"}}]
```
Inoltre è possibile modificare le impostazioni di configurazione quando si avvia il cluster Amazon EMR.  
Il file di configurazione del tuo cluster Amazon EMR si trova nel seguente percorso: `/etc/presto/conf/config.properties`.

Utilizza la procedura seguente per creare un cluster Presto con LDAP attivato.

Per creare un cluster, effettua quanto segue:

1. Passare alla Console di gestione AWS.

1. Nella barra di ricerca, specificare **Amazon EMR**.

1. Scegli **Create cluster** (Crea cluster).

1. Per **Cluster name** (Nome cluster inserisci un nome per il tuo cluster.

1. Per **Release**, seleziona la versione di rilascio del cluster.
**Nota**  
Amazon EMR supporta la terminazione automatica per le seguenti versioni:  
Per le versioni 6.x, versioni 6.1.0 o versioni successive
Per le versioni 5.x, versioni 5.30.0 o successive
La terminazione automatica impedisce ai cluster inattivi di funzionare e ti evita di incorrere in costi.

1. Scegli l'applicazione che stai eseguendo sul cluster.

1. In **Networking** (Rete), per **Hardware configuration** (Configurazione hardware), specifica le impostazioni di configurazione hardware.
**Importante**  
Per il **networking**, scegli il VPC su cui è in esecuzione Amazon SageMaker Studio Classic e scegli una sottorete privata.

1. In **Security and access** (Sicurezza e accesso), specifica le impostazioni di sicurezza.

1. Scegli **Create** (Crea).

------
#### [ Hive ]

**Importante**  
Da utilizzare AWS Glue come metastore per le tabelle Hive, seleziona **Usa** i **metadati della tabella Hive** per archiviare i risultati delle tue query Amazon EMR in un AWS Glue catalogo di dati quando avvii un cluster EMR. L'archiviazione dei risultati delle query in un AWS Glue catalogo di dati può evitarti di incorrere in addebiti.  
Per poter eseguire query su set di dati di grandi dimensioni su cluster Amazon EMR, aggiungi le seguenti proprietà al file di configurazione Hive sui cluster Amazon EMR:  

```
[{"classification":"hive-site", "properties"
:{"hive.resultset.use.unique.column.names":"false"}}]
```
Inoltre è possibile modificare le impostazioni di configurazione quando si avvia il cluster Amazon EMR.  
Il file di configurazione del tuo cluster Amazon EMR si trova nel seguente percorso: `/etc/hive/conf/hive-site.xml`. Puoi specificare la seguente proprietà e riavviare il cluster:  

```
<property>
    <name>hive.resultset.use.unique.column.names</name>
    <value>false</value>
</property>
```

Utilizza la procedura seguente per creare un cluster Hive con LDAP attivato.

Per creare un cluster Hive con LDAP attivato, procedi come segue.

1. Passare alla Console di gestione AWS.

1. Nella barra di ricerca, specificare **Amazon EMR**.

1. Scegli **Create cluster** (Crea cluster).

1. Scegli **Go to advanced options (Vai alle opzioni avanzate)**.

1. Per **Release**, seleziona una versione di Amazon EMR.

1. L'opzione di configurazione **Hive** è selezionata di default. Assicurati che l'opzione **Hive** abbia una casella di controllo accanto.

1. (Facoltativo) Puoi anche selezionare **Presto** come opzione di configurazione per attivare sia Hive che Presto sul tuo cluster.

1. (Facoltativo) Seleziona **Usa i metadati della tabella Hive** per archiviare i risultati delle tue query Amazon EMR in un catalogo di dati. AWS Glue L'archiviazione dei risultati delle query in un AWS Glue catalogo può evitarti di incorrere in addebiti. Per ulteriori informazioni, consulta [Using the AWS Glue Data Catalog as the metastore](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html) for Hive.
**Nota**  
L'archiviazione dei risultati delle query in un catalogo dati richiede Amazon EMR versione 5.8.0 o successiva.

1. In **Enter configuration** (Inserisci configurazione), specifica il seguente codice JSON:

   ```
   [
     {
       "classification": "hive-site",
       "properties": {
         "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org",
         "hive.server2.authentication": "LDAP",
         "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389"
       }
     }
   ]
   ```
**Nota**  
Come best practice di sicurezza, consigliamo di abilitare SSL per HiveServer aggiungendo alcune proprietà nel precedente file JSON hive-site. [Per ulteriori informazioni, consulta Enable SSL on 2. HiveServer](https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.0.1/configuring-wire-encryption/content/enable_ssl_on_hiveserver2.html)

1. Specificare le impostazioni rimanenti del cluster e creare un cluster.

------

Utilizza le seguenti sezioni per utilizzare l'autenticazione LDAP per i cluster Amazon EMR che hai già creato.

------
#### [ LDAP for Presto ]

L'utilizzo di LDAP su un cluster che esegue Presto richiede l'accesso al coordinatore Presto tramite HTTPS. Effettua le seguenti operazioni per fornire l'accesso:
+ Attiva l'accesso sulla porta 636
+ Abilita SSL per il coordinatore Presto

Usa il seguente modello per configurare Presto:

```
- Classification: presto-config
     ConfigurationProperties:
        http-server.authentication.type: 'PASSWORD'
        http-server.https.enabled: 'true'
        http-server.https.port: '8889'
        http-server.http.port: '8899'
        node-scheduler.include-coordinator: 'true'
        http-server.https.keystore.path: '/path/to/keystore/path/for/presto'
        http-server.https.keystore.key: 'keystore-key-password'
        discovery.uri: 'http://master-node-dns-name:8899'
- Classification: presto-password-authenticator
     ConfigurationProperties:
        password-authenticator.name: 'ldap'
        ldap.url: !Sub 'ldaps://ldap-server-dns-name:636'
        ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org"
        internal-communication.authentication.ldap.user: "ldap-user-name"
        internal-communication.authentication.ldap.password: "ldap-password"
```

Per informazioni sulla configurazione LDAP in Presto, consulta le seguenti risorse:
+ [LDAP Authentication](https://prestodb.io/docs/current/security/ldap.html) (Autenticazione LDAP)
+ [Utilizzo dell'autenticazione LDAP con Presto su Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-presto-ldap.html)

**Nota**  
Come best practice di sicurezza, consigliamo di abilitare SSL per Presto. Per ulteriori informazioni, consulta [Comunicazione interna sicura](https://prestodb.io/docs/current/security/internal-communication.html).

------
#### [ LDAP for Hive ]

Per utilizzare LDAP per Hive per un cluster che hai creato, utilizza la seguente procedura [Riconfigurazione di un gruppo di istanze nella console](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps-running-cluster.html#emr-configure-apps-running-cluster-considerations).

Stai specificando il nome del cluster a cui ti stai connettendo.

```
[
  {
    "classification": "hive-site",
    "properties": {
      "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org",
      "hive.server2.authentication": "LDAP",
      "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389"
    }
  }
]
```

------

Utilizza la procedura seguente per importare i dati da un cluster.

Per importare i dati da un cluster, esegui le operazioni descritte di seguito.

1. Apri un flusso di Data Wrangler.

1. Scegli **Crea connessione**.

1. Scegli **Amazon EMR**.

1. Scegli una delle seguenti operazioni.
   + (Facoltativo) Per **Secrets ARN**, specifica l'Amazon Resource Number (ARN) del database all'interno del cluster. I segreti forniscono una sicurezza aggiuntiva. Per ulteriori informazioni sui segreti, consulta [Cos'è Gestione dei segreti AWS?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) Per informazioni sulla creazione di un segreto per il tuo cluster, consulta [Creare un Gestione dei segreti AWS segreto per il cluster](#data-wrangler-emr-secrets-manager).
**Importante**  
Se si utilizza un ruolo di runtime IAM per l'autenticazione è necessario specificare un segreto.
   + Dalla tabella a discesa, scegli un cluster.

1. Scegli **Next (Successivo)**.

1. Per **Seleziona un endpoint per il *example-cluster-name* cluster**, scegli un motore di query.

1. **(Facoltativo) Seleziona Save connection** (Salva connessione).

1. Scegliere **Next, select login** (Quindi, seleziona il login) e scegliere uno dei seguenti.
   + Nessuna autenticazione
   + LDAP
   + IAM

1. Per **Accedi al *example-cluster-name* cluster**, specifica il **nome utente** e **la password** per il cluster.

1. Scegli **Connetti**.

1. Nell'editor di query, specificare una query SQL.

1. Scegli **Esegui**.

1. Scegli **Importa**.

### Creare un Gestione dei segreti AWS segreto per il cluster
<a name="data-wrangler-emr-secrets-manager"></a>

Se stai usando un ruolo runtime IAM per accedere al tuo cluster Amazon EMR, devi memorizzare le credenziali che usi per accedere ad Amazon EMR come segreto di Secrets Manager. Tutte le credenziali utilizzate per accedere al cluster vengono archiviate all'interno del segreto.

È necessario memorizzare nel segreto le seguenti informazioni:
+ Endpoint JDBC: `jdbc:hive2://`
+ Nome DNS: il nome DNS del cluster Amazon EMR. È l'endpoint per il nodo primario o il nome host.
+ Porta: `8446`

Puoi anche memorizzare le seguenti informazioni aggiuntive all'interno del segreto:
+ Ruolo IAM: il ruolo IAM che stai utilizzando per accedere al cluster. Data Wrangler utilizza il tuo ruolo di esecuzione SageMaker AI per impostazione predefinita.
+ Percorso truststore: per impostazione predefinita, Data Wrangler crea un percorso truststore per te. Inoltre puoi utilizzare il tuo personale percorso truststore. Per ulteriori informazioni sui percorsi truststore, consulta [In-transit](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/hs2-encryption-intransit.html) encryption in 2. HiveServer
+ Password Truststore: per impostazione predefinita, Data Wrangler crea una password truststore per te. Inoltre puoi utilizzare il tuo personale percorso truststore. Per ulteriori informazioni sui percorsi truststore, vedere Crittografia [in transito in 2](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/hs2-encryption-intransit.html). HiveServer

Utilizzare la procedura seguente per memorizzare le credenziali all'interno di un segreto di Secrets Manager.

Per memorizzare le credenziali come segrete, procedi come segue.

1. Passare alla Console di gestione AWS.

1. Nella barra di ricerca specifica Secrets Manager.

1. Scegli **Gestione dei segreti AWS**.

1. Scegli **Archivia un nuovo segreto**.

1. Per **Secret type** (Tipo di segreto), scegli **Other type of secret** (Altro tipo di segreto).

1. In **Key/value** (Chiave/valore), seleziona **Plaintext** (Testo semplice).

1. Per i cluster che eseguono Hive, puoi utilizzare il seguente modello per l'autenticazione IAM.

   ```
   {"jdbcURL": ""
    "iam_auth": {"endpoint": "jdbc:hive2://", #required
                   "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required 
                   "port": "10000", #required
                 "cluster_id": "j-xxxxxxxxx", #required
                 "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional
                 "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional
                 "truststore_password": "changeit" #optional
                 
                 }}
   ```
**Nota**  
Dopo aver importato i dati, si applicano le trasformazioni. Successivamente esporterai i dati trasformati in una posizione specifica. Se utilizzi un notebook Jupyter per esportare i dati trasformati in Amazon S3, devi utilizzare il percorso truststore specificato nell'esempio precedente.

Un segreto di Secrets Manager archivia l'URL JDBC del cluster Amazon EMR come segreto. L'utilizzo di un segreto è più sicuro dell'immissione diretta delle credenziali.

Utilizza la seguente procedura per memorizzare l'URL JDBC come segreto.

Per memorizzare l'URL JDBC come segreto, esegui le operazioni descritte di seguito.

1. Passare alla Console di gestione AWS.

1. Nella barra di ricerca specifica Secrets Manager.

1. Scegli **Gestione dei segreti AWS**.

1. Scegli **Archivia un nuovo segreto**.

1. Per **Secret type** (Tipo di segreto), scegli **Other type of secret** (Altro tipo di segreto).

1. Per le **Key/value pairs** (Coppie chiave/valore), specifica `jdbcURL` come chiave e un URL JDBC valido.

   Il formato di un URL JDBC valido dipende dal fatto che si utilizzi l'autenticazione e che si utilizzi Hive o Presto come motore di query. L'elenco seguente mostra i formati URL JBDC validi per le diverse configurazioni possibili.
   + Hive, nessuna autenticazione – `jdbc:hive2://emr-cluster-master-public-dns:10000/;`
   + Hive, autenticazione LDAP – `jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;`
   + Per Hive con SSL abilitato, il formato URL JDBC dipende dall'utilizzo o meno di un file Java Keystore per la configurazione TLS. Il file Java Keystore aiuta a verificare l'identità del nodo principale del cluster Amazon EMR. Per utilizzare un file Java Keystore, generalo su un cluster EMR e caricalo su Data Wrangler. Per generare un file, usa il seguente comando sul cluster Amazon EMR, `keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks`. Per informazioni sull'esecuzione di comandi su un cluster Amazon EMR, consulta [Protezione dell'accesso ai cluster EMR utilizzando AWS Systems Manager](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/). Per caricare un file, seleziona la freccia rivolta verso l'alto nella barra di navigazione a sinistra dell'interfaccia utente di Data Wrangler.

     I seguenti sono i formati URL JDBC validi per Hive con SSL abilitato:
     + Senza un file Java Keystore: `jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;`
     + Con un file Keystore Java: `jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;`
   + Presto, nessuna autenticazione — jdbc:presto: //:8889/; *emr-cluster-master-public-dns*
   + Per Presto con autenticazione LDAP e SSL abilitato, il formato URL JDBC dipende dall'utilizzo o meno di un file Java Keystore per la configurazione TLS. Il file Java Keystore aiuta a verificare l'identità del nodo principale del cluster Amazon EMR. Per utilizzare un file Java Keystore, generalo su un cluster EMR e caricalo su Data Wrangler. Per caricare un file, seleziona la freccia rivolta verso l'alto nella barra di navigazione a sinistra dell'interfaccia utente di Data Wrangler. Per informazioni sulla creazione di un file Java Keystore per Presto, consulta [Java Keystore File per TLS.](https://prestodb.io/docs/current/security/tls.html#server-java-keystore) Per informazioni sull'esecuzione di comandi su un cluster Amazon EMR, consulta [Protezione dell'accesso ai cluster EMR utilizzando AWS Systems Manager](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/).
     + Senza un file Java Keystore: `jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;`
     + Con un file Keystore Java: `jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;`

Durante il processo di importazione dei dati da un cluster Amazon EMR, potresti riscontrare problemi. Per informazioni sulla loro risoluzione, consulta [Soluzione dei problemi di Amazon EMR](data-wrangler-trouble-shooting.md#data-wrangler-trouble-shooting-emr).

## Importazione di dati da Databricks (JDBC)
<a name="data-wrangler-databricks"></a>

Puoi usare Databricks come fonte di dati per il tuo flusso Amazon SageMaker Data Wrangler. Per importare un set di dati da Databricks, utilizza la funzionalità di importazione JDBC (Connettività Java Databricks) per accedere al database Databricks. Dopo aver effettuato l'accesso al database, specifica una query SQL per ottenere i dati e importarli.

Partiamo dal presupposto che tu abbia un cluster Databricks in esecuzione e che abbia configurato il driver JDBC su di esso. Per informazioni, consulta le seguenti pagine di documentazione Databricks:
+ [Driver JDBC](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-driver)
+ [Parametri di configurazione e connessione JDBC](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters)
+ [Parametri di autenticazione](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#authentication-parameters)

Data Wrangler memorizza il tuo URL JDBC in. Gestione dei segreti AWSÈ necessario concedere le autorizzazioni per il ruolo di esecuzione di Amazon SageMaker Studio Classic IAM per utilizzare Secrets Manager. Utilizza la seguente procedura per concedere le autorizzazioni.

Per concedere le autorizzazioni a Secrets Manager, procedi come segue.

1. Accedi Console di gestione AWS e apri la console IAM all'indirizzo [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/).

1. Scegli **Ruoli**.

1. Nella barra di ricerca, specifica il ruolo di esecuzione di Amazon SageMaker AI utilizzato da Amazon SageMaker Studio Classic.

1. Seleziona il ruolo.

1. Scegli **Add Permissions (Aggiungi autorizzazioni)**.

1. Scegli **Create inline policy** (Crea policy in linea).

1. Per **Service** (Servizio), specifica **Secrets Manager** e sceglilo.

1. Per **Azioni**, seleziona l'icona a forma di freccia accanto a **Gestione delle autorizzazioni**.

1. Scegli **PutResourcePolicy**.

1. In **Risorse**, scegli **Specifiche**.

1. Scegli la casella di controllo accanto a **Qualsiasi in questo account**.

1. Scegli **Verifica policy**.

1. Per **Nome**, specificare un nome.

1. Scegli **Crea policy**.

Puoi utilizzare le partizioni per importare i tuoi dati più velocemente. Le partizioni offrono a Data Wrangler la capacità di elaborare i dati in parallelo. Per impostazione predefinita, Data Wrangler utilizza 2 partizioni. Nella la maggior parte dei casi d'uso, 2 partizioni offrono velocità di elaborazione dei dati quasi ottimali.

Se scegli di specificare più di 2 partizioni, puoi anche specificare una colonna per suddividere i dati. Il tipo di valori nella colonna deve essere un numero o una data.

Ti consigliamo di utilizzare le partizioni solo se conosci la struttura dei dati e il modo in cui vengono elaborati.

Puoi importare l'intero set di dati o campionarne una parte. Per un database Databricks, sono disponibili le seguenti opzioni di campionamento:
+ Nessuno: importa l'intero set di dati.
+ First K: campiona le prime righe K del set di dati, dove K è un numero intero specificato.
+ Randomizzato: preleva un campione a caso della dimensione specificata dall'utente.
+ Stratificato: preleva un campione a caso stratificato. Un campione stratificato mantiene il rapporto dei valori di una colonna.

Utilizza la procedura seguente per importare i dati da un database Databricks.

Per importare i dati da Databricks, esegui le operazioni descritte di seguito.

1. Accedi [ad Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Scegli **Studio**

1. Scegli **Launch app**.

1. Dall'elenco a discesa, seleziona **Studio**.

1. Dalla scheda **Import data** (Importa dati) del flusso Data Wrangler, scegli **Databricks.**

1. Specificate i seguenti campi:
   + **Dataset name** (Nome del set di dati): un nome che desideri utilizzare per il set di dati nel flusso di Data Wrangler.
   + **Driver**: **com.simba.spark.jdbc.Driver**.
   + **URL JDBC**: l'URL del database Databricks. La formattazione dell'URL può variare tra le istanze di Databricks. Per informazioni su come trovare l'URL e specificare i parametri al suo interno, consulta [Parametri di configurazione e connessione JDBC](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters). Di seguito è riportato un esempio di come è possibile formattare un URL: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default; transportMode=http; ssl=1; httpPath= /3122619508517275/0909-200301-cut318; =3; UID=; PWD=. sql/protocolv1/o AuthMech *token* *personal-access-token*
**Nota**  
È possibile specificare un ARN segreto che contenga l'URL JDBC anziché specificare l'URL JDBC stesso. Il segreto deve contenere una coppia chiave-valore con il seguente formato: `jdbcURL:JDBC-URL`. Per ulteriori informazioni, consulta [What is Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html)

1. Specificare un'istruzione SQL SELECT.
**Nota**  
Data Wrangler non supporta Common Table Expressions (CTE) o tabelle temporanee all'interno di una query.

1. Per **Sampling** (Campionamento), scegliete un metodo di campionamento.

1. Scegli **Esegui**. 

1. (Facoltativo) Per **PREVIEW** (ANTEPRIMA), scegli l'ingranaggio per aprire le impostazioni **Partition settings** (Impostazioni della partizione). 

   1. Specificare il numero di partizioni. Puoi partizionare per colonna se specifichi il numero di partizioni:
     + **Enter number of partitions** (Inserisci il numero di partizioni): specifica un valore maggiore di 2.
     + (Facoltativo) **Partition by column** (Partizione per colonna): specificare i seguenti campi. È possibile eseguire il partizionamento in base a una colonna solo se è stato specificato un valore in **Enter number of partitions** (Immettere il numero di partizioni).
       + **Select column** (Seleziona colonna): seleziona la colonna che stai utilizzando per la partizione dati. Il tipo di dati nella colonna deve essere un numero o una data.
       + **Upper bound** (Limite superiore): dai valori nella colonna che hai specificato, il limite superiore è il valore che stai utilizzando nella partizione. Il valore specificato non modifica i dati che stai importando. Influisce solo sulla velocità di importazione. Per prestazioni ottimali, specifica un limite superiore vicino al massimo della colonna.
       + **Lower bound** (Limite inferiore): dai valori nella colonna che hai specificato, il limite inferiore è il valore che stai utilizzando nella partizione. Il valore specificato non modifica i dati che stai importando. Influisce solo sulla velocità di importazione. Per prestazioni ottimali, specifica un limite inferiore vicino al minimo della colonna.

1. Scegli **Importa**.

## Importare dati da Salesforce Data Cloud
<a name="data-wrangler-import-salesforce-data-cloud"></a>

Puoi utilizzare Salesforce Data Cloud come fonte di dati in Amazon Data Wrangler per preparare SageMaker i dati in Salesforce Data Cloud per l'apprendimento automatico.

Con Salesforce Data Cloud come origine dati in Data Wrangler, puoi connetterti rapidamente ai tuoi dati Salesforce senza scrivere una sola riga di codice. Puoi unire i dati di Salesforce con i dati provenienti da qualsiasi altra origine dati in Data Wrangler.

Dopo aver effettuato la connessione al data cloud, puoi completare le seguenti operazioni:
+ Visualizza i tuoi dati con visualizzazioni integrate
+ Comprendi i dati e identifica potenziali errori e valori estremi
+ Trasforma i dati con più di 300 trasformazioni integrate
+ Esporta i dati che hai trasformato

**Topics**
+ [Configurazione amministratore](#data-wrangler-import-salesforce-data-cloud-administrator)
+ [Guida per Data Scientist](#data-wrangler-salesforce-data-cloud-ds)

### Configurazione amministratore
<a name="data-wrangler-import-salesforce-data-cloud-administrator"></a>

**Importante**  
Prima di iniziare, assicurati che i tuoi utenti utilizzino Amazon SageMaker Studio Classic versione 1.3.0 o successiva. Per informazioni su come verificare la versione di Studio Classic e aggiornarla, consulta [Prepara i dati ML con Amazon SageMaker Data Wrangler](data-wrangler.md).

Quando si configura l'accesso a Salesforce Data Cloud, è necessario completare le seguenti attività:
+ Ottenere l'URL del dominio Salesforce. Salesforce fa riferimento all'URL del dominio anche come URL dell'organizzazione.
+ Ottenere OAuth credenziali da Salesforce. 
+ Ottenere l'URL di autorizzazione e l'URL del token per il dominio Salesforce.
+ Creazione di un Gestione dei segreti AWS segreto con la configurazione. OAuth 
+ Creazione di una configurazione del ciclo di vita che Data Wrangler utilizza per leggere le credenziali dal segreto.
+ Concedere a Data Wrangler le autorizzazioni per leggere il segreto.

Dopo aver eseguito le attività precedenti, gli utenti possono accedere a Salesforce Data Cloud utilizzando. OAuth

**Nota**  
I tuoi utenti potrebbero riscontrare problemi dopo aver configurato tutto. Per informazioni sulla risoluzione dei problemi, consulta [Risoluzione dei problemi di Salesforce](data-wrangler-trouble-shooting.md#data-wrangler-troubleshooting-salesforce-data-cloud).

Utilizza la procedura seguente per ottenere l'URL del dominio.

1. Vai alla pagina di accesso di [Salesforce](login.salesforce.com).

1. Per **Quick find** (Ricerca rapida), specifica **My Domain** (Il mio dominio).

1. Copia il valore di **Current My Domain URL** (URL attuale del mio dominio) in un file di testo.

1. Aggiungi `https://` all'inizio dell'URL. 

Dopo aver ottenuto l'URL del dominio Salesforce, puoi utilizzare la seguente procedura per ottenere le credenziali di accesso da Salesforce e consentire a Data Wrangler di accedere ai tuoi dati Salesforce.

Per ottenere le credenziali di accesso da Salesforce e fornire l'accesso a Data Wrangler, procedi come segue.

1. Vai all'URL del tuo dominio Salesforce e accedi al tuo account.

1. Scegliere l'icona a forma di ingranaggio.

1. Nella barra di ricerca visualizzata, specifica **App Manager**.

1. Seleziona **New Connected App** (Nuova app connessa).

1. Specificate i seguenti campi:
   + Nome dell'app connessa: puoi specificare qualsiasi nome, ma ti consigliamo di scegliere un nome che includa Data Wrangler. Ad esempio, puoi specificare **Salesforce Data Cloud Data Wrangler Integration**.
   + Nome API: utilizza il valore predefinito.
   + Email di contatto: specifica il tuo indirizzo e-mail.
   + Nella **sezione API (Abilita OAuth impostazioni)**, seleziona la casella di controllo per attivare le impostazioni. OAuth 
   + Per URL di **callback, specifica l'URL** di Amazon SageMaker Studio Classic. Per ottenere l'URL di Studio Classic, accedi da Console di gestione AWS e copia l'URL.

1. In ** OAuth Ambiti selezionati**, sposta quanto segue dagli Ambiti **disponibili agli OAuth Ambiti** **selezionati OAuth**:
   + Gestisci i dati degli utenti tramite () APIs `api`
   + Esegui le richieste in qualsiasi momento (`refresh_token`, `offline_access`)
   + Esegui query ANSI SQL sui dati di Salesforce Data Cloud (`cdp_query_api`)
   + Gestisci i dati del profilo di Salesforce Customer Data Platform (`cdp_profile_api`)

1. Scegli **Save** (Salva). Dopo aver salvato le modifiche, Salesforce apre una nuova pagina.

1. Scegli **Continue** (Continua)

1. Vai a **Consumer Key and Secret** (Chiave e segreto del consumatore).

1. Scegli **Manage Consumer Details** (Gestisci i dettagli del consumatore). Salesforce ti reindirizza a una nuova pagina in cui potresti dover passare l'autenticazione a due fattori.

1. 
**Importante**  
Copia la Chiave consumatore e il Segreto consumatore in un editor di testo. Queste informazioni sono necessarie per connettere il data cloud a Data Wrangler.

1. Torna a **Manage Connected Apps** (Gestisci app connesse).

1. Vai **Connected App Name** (Nome app connessa) e al nome della tua applicazione.

1. Scegli **Gestisci**.

   1. Seleziona **Edit Policies** (Modifica policy).

   1. Cambia **IP Relaxation** in **Relax IP restrictions**.

   1. Scegli **Save** (Salva).

Dopo aver fornito l'accesso a Salesforce Data Cloud, devi fornire le autorizzazioni agli utenti. Utilizza la seguente procedura per concedere le autorizzazioni.

Per fornire ai tuoi utenti le autorizzazioni, procedi come segue.

1. Vai alla pagina iniziale del setup.

1. Nella barra di navigazione a sinistra, cerca **Users** (Utenti) e scegli la voce di menu **Users**.

1. Scegli il collegamento ipertestuale con il tuo nome utente.

1. Vai a **Permission Set Assignments** (Assegnazioni dei set di autorizzazioni).

1. Scegli **Edit Assignments** (Modifica assegnazioni).

1. Aggiungi le autorizzazioni seguenti:
   + **Customer Data Platform Admin** (Amministratore della piattaforma dati dei clienti)
   + **Customer Data Platform Data Aware Specialist**

1. Scegli **Save** (Salva).

Dopo aver ottenuto le informazioni per il dominio Salesforce, devi ottenere l'URL di autorizzazione e l'URL del token per il Gestione dei segreti AWS segreto che stai creando.

Utilizza la procedura seguente per ottenere l'URL di autorizzazione e l'URL del token.

**Per ottenere l'URL di autorizzazione e l'URL del token**

1. Accedi all'URL del tuo dominio Salesforce.

1. Utilizza uno dei seguenti metodi per ottenere il. URLs Se utilizzi una distribuzione Linux con `curl` ed è `jq` installata, ti consigliamo di utilizzare il metodo che funziona solo su Linux.
   + (Solo Linux) Specifica il seguente comando nel terminale.

     ```
     curl salesforce-domain-URL/.well-known/openid-configuration | \
     jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \
     jq '.  += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
     ```
   + 

     1. Accedi a **example-org-URL*/.well-known/openid-configuration* nel tuo browser.

     1. Copia `authorization_endpoint` e `token_endpoint` in un editor di testo.

     1. Crea il seguente oggetto JSON:

        ```
        {
          "identity_provider": "SALESFORCE",
          "authorization_url": "example-authorization-endpoint", 
          "token_url": "example-token-endpoint",
          "client_id": "example-consumer-key",
          "client_secret": "example-consumer-secret"
        }
        ```

Dopo aver creato l'oggetto di OAuth configurazione, puoi creare un Gestione dei segreti AWS segreto che lo memorizza. Per creare il segreto, utilizzare la procedura seguente.

Per creare un segreto, procedere come descritto qui di seguito:

1. Passare alla [console Gestione dei segreti AWS](https://console.aws.amazon.com/secretsmanager/).

1. Scegliere **Store a secret** (Archivia un nuovo segreto).

1. Selezionare **Other type of secret** (Altro tipo di segreti).

1. In **Key/value** (Chiave/valore), seleziona **Plaintext** (Testo semplice).

1. Sostituisci il JSON vuoto con le seguenti impostazioni di configurazione.

   ```
   {
     "identity_provider": "SALESFORCE",
     "authorization_url": "example-authorization-endpoint", 
     "token_url": "example-token-endpoint",
     "client_id": "example-consumer-key",
     "client_secret": "example-consumer-secret"
   }
   ```

1. Scegli **Next (Successivo)**.

1. Per **Secret Name** (Nome segreto), specifica il nome del segreto.

1. In **Tag** seleziona **Add** (Aggiungi).

   1. Per **Key** (Chiave), specifica **sagemaker:partner**. Per **Value**, ti consigliamo di specificare un valore che potrebbe essere utile per il tuo caso d'uso. Tuttavia, puoi specificare qualsiasi valore.
**Importante**  
È necessario creare la chiave. Non puoi importare i tuoi dati da Salesforce se non li crei.

1. Scegli **Next (Successivo)**.

1. Scegli **Store**.

1. Scegli il segreto creato.

1. Prendi nota dei seguenti campi:
   + L'Amazon Resource Number (ARN) del segreto .
   + Il nome del segreto.

Dopo aver creato il segreto, devi aggiungere le autorizzazioni affinché Data Wrangler possa leggere il segreto. Utilizza la seguente procedura per aggiungere le autorizzazioni.

Per aggiungere le autorizzazioni di lettura per Data Wrangler, esegui queste operazioni.

1. Accedi alla [console Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/).

1. Scegli **Domini**.

1. Scegli il dominio che stai utilizzando per accedere a Data Wrangler.

1. Scegli il tuo **User Profile** (Profilo utente).

1. In **Details** (Dettagli), trova il **Execution role** (Ruolo di esecuzione). Il suo ARN presenta il formato seguente: `arn:aws:iam::111122223333:role/example-role`. Prendi nota del ruolo di esecuzione dell' SageMaker IA. All'interno dell'ARN, è tutto ciò che segue `role/`.

1. Passare alla [IAM console](https://console.aws.amazon.com/iam) (Console IAM).

1. Nella barra **di ricerca Search IAM**, specifica il nome del ruolo di esecuzione SageMaker AI.

1. Seleziona il ruolo.

1. Scegli **Add Permissions (Aggiungi autorizzazioni)**.

1. Scegli **Create inline policy** (Crea policy in linea).

1. Scegli la scheda JSON.

1. Specifica la seguente politica all'interno dell'editor.

------
#### [ JSON ]

****  

   ```
   {
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetSecretValue",
                "secretsmanager:PutSecretValue"
            ],
            "Resource": "arn:aws:secretsmanager:*:*:secret:*",
            "Condition": {
                "ForAnyValue:StringLike": {
                    "aws:ResourceTag/sagemaker:partner": "*"
                }
            }
        },
        {
            "Effect": "Allow",
            "Action": [
                "secretsmanager:UpdateSecret"
            ],
            "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*"
        }
    ]
   }
   ```

------

1. Scegli **Esamina la policy**.

1. Per **Nome**, specificare un nome.

1. Scegli **Crea policy**.

Dopo aver concesso a Data Wrangler le autorizzazioni per leggere il segreto, devi aggiungere una configurazione del ciclo di vita che utilizzi il tuo segreto Secrets Manager al tuo profilo utente Amazon SageMaker Studio Classic.

Utilizza la procedura seguente per creare una configurazione del ciclo di vita e aggiungerla al profilo Studio Classic.

Per creare una configurazione del ciclo di vita e aggiungerla al profilo Studio Classic, procedi come segue.

1. Accedi alla [console Amazon SageMaker AI](console.aws.amazon.com/sagemaker).

1. Scegli **Domini**.

1. Scegli il dominio che stai utilizzando per accedere a Data Wrangler.

1. Scegli il tuo **User Profile** (Profilo utente).

1. Se vedi le seguenti applicazioni, eliminale:
   + KernelGateway
   + JupyterKernel
**Nota**  
L’eliminazione delle applicazioni comporta l’aggiornamento di Studio Classic. L'esecuzione degli aggiornamenti può richiedere alcuni istanti.

1. In attesa degli aggiornamenti, scegli **Lifecycle configurations**(Configurazioni del ciclo di vita).

1. Assicurati che la pagina in cui ti trovi visualizzi **Configurazioni del ciclo di vita di Studio Classic**.

1. Scegli **Crea configurazione**.

1. Assicurati che **Jupyter server app** sia stata selezionata.

1. Scegli **Next (Successivo)**.

1. In **Name** (Nome), specifica un nome per la configurazione.

1. Per **Scripts**, specificate il seguente script:

   ```
   #!/bin/bash
   set -eux
   
   cat > ~/.sfgenie_identity_provider_oauth_config <<EOL
   {
       "secret_arn": "secrets-arn-containing-salesforce-credentials"
   }
   EOL
   ```

1. Seleziona **Invia**.

1. Nel riquadro di navigazione a sinistra, scegli **Domini**.

1. Scegli il tuo dominio.

1. Scegliere **Environment** (Ambiente).

1. In **Configurazioni del ciclo di vita per le app personali di Studio Classic**, scegli **Collega**. 

1. Seleziona **Existing configuration** (Configurazione esistente).

1. In **Configurazioni del ciclo di vita di Studio Classic**, seleziona la configurazione del ciclo di vita che hai creato.

1. Choose **Attach to domain** (Collega al dominio).

1. Seleziona la casella di controllo accanto alla configurazione del ciclo di vita che hai collegato.

1. Seleziona **Set as default** (Imposta come predefinito).

È possibile che si verifichino problemi durante l'adattamento della configurazione del ciclo di vita. Per informazioni su come eseguirne il debug, consulta [Configurazioni del ciclo di vita di debug in Amazon Studio Classic SageMaker](studio-lcc-debug.md)

### Guida per Data Scientist
<a name="data-wrangler-salesforce-data-cloud-ds"></a>

Utilizza quanto segue per connettere Salesforce Data Cloud e accedere ai tuoi dati in Data Wrangler.

**Importante**  
L'amministratore deve utilizzare le informazioni nelle sezioni precedenti per configurare Salesforce Data Cloud. Se riscontri problemi, contattali per ricevere assistenza sulla risoluzione dei problemi.

Per aprire Studio Classic e verificarne la versione, consulta la procedura seguente.

1. Segui i passaggi [Prerequisiti](data-wrangler-getting-started.md#data-wrangler-getting-started-prerequisite) per accedere a Data Wrangler tramite Amazon SageMaker Studio Classic.

1. Accanto all’utente che intendi utilizzare per avviare Studio Classic, seleziona **Avvia applicazione**.

1. Scegli **Studio**

**Per creare un set di dati in Data Wrangler con dati provenienti da Salesforce Data Cloud**

1. Accedi [ad Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Scegli **Studio**

1. Scegli **Launch app**.

1. Dall'elenco a discesa, seleziona **Studio**.

1. Scegli l'icona Home.

1. Selezionare **Data** (Dati).

1. Scegli **Data Wrangler**.

1. Scegli **Import data** (Importa dati).

1. In **Available** (Disponibile), scegli **Salesforce Data Cloud**.

1. Per **Connection name** (Nome connessione), specifica un nome per la connessione a Salesforce Data Cloud.

1. Per **Org URL**, specifica l'URL dell'organizzazione nel tuo account Salesforce. Puoi ottenere l'URL dai tuoi amministratori.

1. Scegli **Connetti**.

1. Specifica le tue credenziali per accedere a Salesforce.

Puoi iniziare a creare un set di dati utilizzando i dati di Salesforce Data Cloud dopo esserti connesso ad esso.

Dopo aver selezionato una tabella, è possibile scrivere query ed eseguirle. L'output della query viene visualizzato in **Query results** (Risultati della query).

Dopo aver stabilito l'output della query, è possibile importare l'output della query in un flusso di Data Wrangler per eseguire trasformazioni dei dati. 

Dopo aver creato un set di dati, vai alla schermata **Data flow** per iniziare a trasformare i tuoi dati

## Importazione di dati da Snowflake
<a name="data-wrangler-snowflake"></a>

Puoi usare Snowflake come fonte di dati in Data Wrangler per preparare SageMaker i dati in Snowflake per l'apprendimento automatico.

Con Snowflake come origine dati in Data Wrangler, puoi connetterti rapidamente a Snowflake senza scrivere una sola riga di codice. Puoi unire i tuoi dati in Snowflake con i dati provenienti da qualsiasi altra origine dati in Data Wrangler.

Una volta connesso, puoi eseguire query in modo interattivo sui dati archiviati in Snowflake, trasformarli con più di 300 trasformazioni di dati preconfigurati, comprendere i dati e identificare potenziali errori e valori estremi con un set di robusti modelli di visualizzazione preconfigurati, identificare rapidamente le incongruenze nel flusso di lavoro di preparazione dei dati e diagnosticare i problemi prima che i modelli vengano implementati in produzione. Infine, puoi esportare il flusso di lavoro di preparazione dei dati su Amazon S3 per utilizzarlo con altre funzionalità di SageMaker intelligenza artificiale come Amazon SageMaker Autopilot, Amazon SageMaker Feature Store e Amazon Pipelines. SageMaker 

Puoi crittografare l'output delle tue query utilizzando una chiave che hai creato. AWS Key Management Service Per ulteriori informazioni su AWS KMS, consulta. [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html)

**Topics**
+ [Guida per l'amministratore](#data-wrangler-snowflake-admin)
+ [Guida per Data Scientist](#data-wrangler-snowflake-ds)

### Guida per l'amministratore
<a name="data-wrangler-snowflake-admin"></a>

**Importante**  
Per ulteriori informazioni sul controllo granulare degli accessi e sulle migliori pratiche, consulta [Controllo degli accessi di sicurezza](https://docs.snowflake.com/en/user-guide/security-access-control.html). 

Questa sezione è dedicata agli amministratori di Snowflake che stanno configurando l'accesso a Snowflake dall'interno di Data Wrangler. SageMaker 

**Importante**  
L'utente è responsabile della gestione e del monitoraggio del controllo degli accessi all'interno di Snowflake. Data Wrangler non aggiunge un livello di controllo degli accessi rispetto a Snowflake.   
Il controllo degli accessi include quanto segue:  
I dati a cui un utente accede
(Facoltativo) L'integrazione di storage che offre a Snowflake la possibilità di scrivere risultati di query in un bucket Amazon S3
Le interrogazioni che un utente può eseguire

#### (Facoltativo) Configura le autorizzazioni di importazione dei dati Snowflake
<a name="data-wrangler-snowflake-admin-config"></a>

Per impostazione predefinita, Data Wrangler interroga i dati in Snowflake senza crearne una copia in una posizione Amazon S3. Utilizza le seguenti informazioni se stai configurando un'integrazione di storage con Snowflake. I tuoi utenti possono utilizzare un'integrazione di storage per archiviare i risultati delle query in una posizione Amazon S3.

I tuoi utenti potrebbero avere diversi livelli di accesso ai dati sensibili. Per una sicurezza ottimale dei dati, fornisci a ogni utente la propria integrazione di archiviazione. Ogni integrazione di storage dovrebbe avere una propria policy di governance dei dati.

Questa funzionalità non è al momento disponibile nelle Regioni opt-in.

Snowflake richiede le seguenti autorizzazioni su un bucket e una directory S3 per poter accedere ai file nella directory:
+ `s3:GetObject`
+ `s3:GetObjectVersion`
+ `s3:ListBucket`
+ `s3:ListObjects`
+ `s3:GetBucketLocation`

**Creare una policy IAM**

Devi creare una policy IAM per configurare le autorizzazioni di accesso affinché Snowflake possa caricare e scaricare dati da un bucket Amazon S3.

Di seguito è riportato il documento di policy JSON che utilizzi per creare la policy:

```
# Example policy for S3 write access
# This needs to be updated
{
"Version": "2012-10-17",		 	 	 
"Statement": [
  {
    "Effect": "Allow",
    "Action": [
        "s3:PutObject",
        "s3:GetObject",
        "s3:GetObjectVersion",
        "s3:DeleteObject",
        "s3:DeleteObjectVersion"
    ],
    "Resource": "arn:aws:s3:::bucket/prefix/*"
  },
  {
    "Effect": "Allow",
    "Action": [
        "s3:ListBucket"
    ],
    "Resource": "arn:aws:s3:::bucket/",
    "Condition": {
        "StringLike": {
            "s3:prefix": ["prefix/*"]
        }
    }
  }
 ]
}
```

Per informazioni e procedure sulla creazione di policy con documenti relativi alle policy, consulta [Creazione di policy IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html).

Per la documentazione che fornisce una panoramica sull'utilizzo delle autorizzazioni IAM con Snowflake, consulta le seguenti risorse:
+ [Che cos'è IAM?](https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html)
+ [Crea il ruolo IAM in AWS](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-2-create-the-iam-role-in-aws)
+ [Creare un'integrazione di archiviazione cloud in Snowflake](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-3-create-a-cloud-storage-integration-in-snowflake)
+ [Recupera l'utente AWS IAM per il tuo account Snowflake](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-4-retrieve-the-aws-iam-user-for-your-snowflake-account)
+ [Concedere all'utente IAM le autorizzazioni per accedere al Bucket](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-5-grant-the-iam-user-permissions-to-access-bucket-objects).

Per concedere al data scientist l'autorizzazione all'utilizzo del ruolo Snowflake per l'integrazione dello storage, devi eseguire `GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;`.
+ `integration_name` è il nome dell'integrazione dello storage.
+ `snowflake_role` è il nome del [Snowflake role](https://docs.snowflake.com/en/user-guide/security-access-control-overview.html#roles) (Ruolo Snowflake) predefinito assegnato all'utente data scientist.

#### Configurazione di Snowflake Access OAuth
<a name="data-wrangler-snowflake-oauth-setup"></a>

Invece di chiedere agli utenti di inserire direttamente le loro credenziali in Data Wrangler, puoi fare in modo che utilizzino un provider di identità per accedere a Snowflake. Di seguito sono riportati i collegamenti alla documentazione Snowflake per i provider di identità supportati da Data Wrangler.
+ [Azure AD](https://docs.snowflake.com/en/user-guide/oauth-azure.html)
+ [Okta](https://docs.snowflake.com/en/user-guide/oauth-okta.html)
+ [Ping Federate](https://docs.snowflake.com/en/user-guide/oauth-pingfed.html)

Utilizza la documentazione dei link precedenti per configurare l'accesso al tuo provider di identità. Le informazioni e le procedure in questa sezione aiutano a capire come utilizzare correttamente la documentazione per accedere a Snowflake all'interno di Data Wrangler.

Il tuo provider di identità deve riconoscere Data Wrangler come applicazione. Utilizzare la procedura seguente per registrare Data Wrangler come applicazione all'interno del provider di identità:

1. Seleziona la configurazione che avvia il processo di registrazione di Data Wrangler come applicazione.

1. Fornisci agli utenti del provider di identità l'accesso a Data Wrangler.

1. Attiva l'autenticazione OAuth del client memorizzando le credenziali del client come segreto. Gestione dei segreti AWS 

1. Specificate un URL di reindirizzamento utilizzando il seguente formato: https://*domain-ID*.studio. *Regione AWS*.sagemaker. aws/jupyter/default/lab
**Importante**  
Stai specificando l'ID del dominio Amazon SageMaker AI e Regione AWS quello che stai utilizzando per eseguire Data Wrangler.
**Importante**  
Devi registrare un URL per ogni dominio Amazon SageMaker AI e Regione AWS dove esegui Data Wrangler. Gli utenti di un dominio per i Regione AWS quali non è URLs impostato il reindirizzamento non potranno autenticarsi con il provider di identità per accedere alla connessione Snowflake.

1. Assicurati che il codice di autorizzazione e i tipi di concessione del token di aggiornamento siano consentiti per l'applicazione Data Wrangler.

All'interno del tuo provider di identità, devi configurare un server che invii OAuth token a Data Wrangler a livello di utente. Il server invia i token con Snowflake come destinatario.

Snowflake utilizza il concetto di ruoli che sono ruoli distinti in cui vengono utilizzati i ruoli IAM. AWSÈ necessario configurare il provider di identità per utilizzare qualsiasi ruolo e utilizzare il ruolo predefinito associato all'account Snowflake. Ad esempio, se un utente ha `systems administrator` come ruolo predefinito nel proprio profilo Snowflake, la connessione da Data Wrangler a Snowflake utilizza `systems administrator` come ruolo.

Completa la procedura seguente per configurare il server.

Per configurare il server, procedere nel seguente modo: Stai lavorando all'interno di Snowflake per tutte le fasi tranne l'ultima.

1. Inizia a configurare il server o l'API.

1. Configura il server di autorizzazione per utilizzare il codice di autorizzazione e aggiornare i tipi di concessione del token.

1. Specifica la durata del token di accesso.

1. Imposta il timeout di inattività del token di aggiornamento. Il timeout di inattività è periodo di tempo in cui il token di aggiornamento scade se non viene utilizzato.
**Nota**  
Se stai pianificando processi in Data Wrangler, ti consigliamo di impostare il tempo di timeout di inattività maggiore della frequenza del processo di elaborazione. In caso contrario, alcuni processi di elaborazione potrebbero non riuscire perché il token di aggiornamento scadrà prima che possano essere eseguiti. Quando il token di aggiornamento scade, l'utente deve autenticarsi nuovamente accedendo alla connessione che ha stabilito per Snowflake tramite Data Wrangler.

1. Specificare come nuovo ambito `session:role-any`.
**Nota**  
Per Azure AD, copia l'identificatore univoco per l'ambito. Data Wrangler richiede di fornirgli l'identificatore.

1. 
**Importante**  
Nell'ambito dell'integrazione della OAuth sicurezza esterna per Snowflake, abilita. `external_oauth_any_role_mode`

**Importante**  
Data Wrangler non supporta i token di aggiornamento a rotazione. L'utilizzo di token di aggiornamento a rotazione.potrebbe causare errori di accesso o la necessità di accedere frequentemente agli utenti.

**Importante**  
Se il token di aggiornamento scade, gli utenti devono autenticarsi nuovamente accedere alla connessione che hanno stabilito per Snowflake tramite Data Wrangler.

Dopo aver configurato il OAuth provider, fornisci a Data Wrangler le informazioni necessarie per connettersi al provider. Puoi utilizzare la documentazione del tuo provider di identità per ottenere i valori per i seguenti campi:
+ Token URL: l'URL del token che il provider di identità invia a Data Wrangler.
+ Authorization URL: l'URL del server di autorizzazione del provider di identità.
+ ID client: l'ID del provider di identità.
+ Client secret: il segreto riconosciuto solo dal server di autorizzazione o dall'API.
+ (Solo Azure AD) Le credenziali dell' OAuth ambito che hai copiato.

Archivia i campi e i valori in modo Gestione dei segreti AWS segreto e li aggiungi alla configurazione del ciclo di vita di Amazon SageMaker Studio Classic che stai utilizzando per Data Wrangler. Una configurazione del ciclo di vita è uno script di shell. Utilizzala per rendere accessibile a Data Wrangler il nome della risorsa Amazon (ARN) del segreto. Per informazioni sulla creazione di segreti, consulta [Move](https://docs.aws.amazon.com/secretsmanager/latest/userguide/hardcoded.html) i segreti hardcoded to. Gestione dei segreti AWS Per informazioni sull’utilizzo delle configurazioni del ciclo di vita in Studio Classic, consulta [Usa le configurazioni del ciclo di vita per personalizzare Amazon Studio Classic SageMaker](studio-lcc.md).

**Importante**  
Prima di creare un segreto di Secrets Manager, assicurati che il ruolo di esecuzione SageMaker AI che stai utilizzando per Amazon SageMaker Studio Classic disponga delle autorizzazioni per creare e aggiornare segreti in Secrets Manager. Per ulteriori informazioni sull'aggiunta di autorizzazioni, consulta la sezione [Esempio: autorizzazione alla creazione di segreti](https://docs.aws.amazon.com/secretsmanager/latest/userguide/auth-and-access_examples.html#auth-and-access_examples_create).

Per Okta e Ping Federate, il formato del segreto è il seguente:

```
{
    "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token",
    "client_id":"example-client-id",
    "client_secret":"example-client-secret",
    "identity_provider":"OKTA"|"PING_FEDERATE",
    "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize"
}
```

Per Azure AD, il formato del segreto è il seguente:

```
{
    "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token",
    "client_id":"example-client-id",
    "client_secret":"example-client-secret",
    "identity_provider":"AZURE_AD",
    "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize",
    "datasource_oauth_scope":"api://appuri/session:role-any)"
}
```

È necessario disporre di una configurazione del ciclo di vita che utilizzi il segreto di Secrets Manager che hai creato. È possibile creare la configurazione del ciclo di vita o modificarne una già creata. La configurazione deve utilizzare lo script seguente.

```
#!/bin/bash

set -eux

## Script Body

cat > ~/.snowflake_identity_provider_oauth_config <<EOL
{
    "secret_arn": "example-secret-arn"
}
EOL
```

Per informazioni sulla configurazione del ciclo di vita, consulta [Crea e associa una configurazione del ciclo di vita con Amazon Studio Classic SageMaker](studio-lcc-create.md). Durante il processo di configurazione, esegui queste operazioni:
+ Imposta il tipo di applicazione della configurazione su `Jupyter Server`.
+ Collega la configurazione al dominio Amazon SageMaker AI che contiene i tuoi utenti.
+ Fai eseguire la configurazione per impostazione predefinita. Deve essere eseguita ogni volta che un utente accede a Studio Classic. In caso contrario, le credenziali salvate nella configurazione non saranno disponibili agli utenti quando utilizzano Data Wrangler.
+ La configurazione del ciclo di vita crea un file con il nome `snowflake_identity_provider_oauth_config` nella cartella home dell'utente. Il file contiene il segreto di Secrets Manager. Assicurati che si trovi nella cartella home dell'utente ogni volta che viene inizializzata l'istanza del server Jupyter.

#### Connettività privata tra Data Wrangler e Snowflake tramite AWS PrivateLink
<a name="data-wrangler-security-snowflake-vpc"></a>

Questa sezione spiega come utilizzare per AWS PrivateLink stabilire una connessione privata tra Data Wrangler e Snowflake. Le diverse fasi vengono spiegate nelle sezioni seguenti. 

##### Crea un VPC
<a name="data-wrangler-snowflake-snowflake-vpc-setup"></a>

Se non disponi di un VPC configurato, segui le istruzioni [Crea un nuovo VPC](https://docs.aws.amazon.com/directoryservice/latest/admin-guide/gsg_create_vpc.html#create_vpc) per crearne uno.

Una volta scelto il VPC che desideri utilizzare per stabilire una connessione privata, fornisci le seguenti credenziali all'amministratore Snowflake per abilitare AWS PrivateLink:
+ ID VPC
+ AWS ID dell'account
+ L'URL dell'account corrispondente che utilizzi per accedere a Snowflake

**Importante**  
Come descritto nella documentazione di Snowflake, l'attivazione dell'account Snowflake può richiedere fino a due giorni lavorativi. 

##### Configura l'integrazione con Snowflake AWS PrivateLink
<a name="data-wrangler-snowflake-snowflake-vpc-privatelink-setup"></a>

Dopo AWS PrivateLink l'attivazione, recupera la AWS PrivateLink configurazione per la tua regione eseguendo il seguente comando in un foglio di lavoro Snowflake. Accedi alla console Snowflake e inserisci quanto segue in **Worksheets** (Fogli di lavoro): `select SYSTEM$GET_PRIVATELINK_CONFIG();` 

1. Recupera i valori per quanto segue: `privatelink-account-name`, `privatelink_ocsp-url`, `privatelink-account-url`, e `privatelink_ocsp-url` dall'oggetto JSON risultante. Gli esempi di ogni valore sono mostrati nel frammento seguente. Memorizza questi valori per un uso successivo.

   ```
   privatelink-account-name: xxxxxxxx.region.privatelink
   privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx
   privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com
   privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
   ```

1. Passa alla AWS console e vai al menu VPC.

1. Dal pannello laterale sinistro, scegli il link **Endpoints** per accedere alla configurazione degli **Endpoint VPC**.

   Una volta lì, scegli **Create Endpoint** (Crea endpoint). 

1. Seleziona il pulsante di opzione **Find service by name** (Trova servizio per nome), come mostrato nello screenshot seguente.   
![\[La sezione Crea endpoint nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-radio.png)

1. Nel campo **Nome del servizio**, incolla il valore `privatelink-vpce-id` recuperato nella fase precedente e scegli **Verifica**. 

   Se la connessione è riuscita, sullo schermo viene visualizzato un avviso verde che indica il **Service name found** (Nome del servizio trovato) e le opzioni **VPC** e **Subnet** (sottorete) si espandono automaticamente, come mostrato nella schermata seguente. A seconda della Regione selezionata, la schermata risultante potrebbe mostrare il nome di un'altra Regione AWS .   
![\[La sezione Crea endpoint nella console che mostra la connessione riuscita.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-service-name-found.png)

1. Seleziona lo stesso ID VPC che hai inviato a Snowflake dall'elenco a discesa **VPC**.

1. Se non hai ancora creato una sottorete, esegui la seguente serie di istruzioni sulla creazione di una sottorete. 

1. Seleziona **Subnet** (Sottorete) dall'elenco a discesa **VPC**. Quindi seleziona **Create subnet** (Crea sottorete) e segui le istruzioni per creare un sottoinsieme nel tuo VPC. Assicurati di selezionare l'ID VPC che hai inviato a Snowflake. 

1. In **Security Group Configuration** (Configurazione del gruppo di sicurezza), seleziona **Create New Security Group** (Crea nuovo gruppo di sicurezza) per aprire la schermata predefinita del **Security Group** (Gruppo di sicurezza) in una nuova scheda. In questa nuova scheda, seleziona **Create Security Group** (Crea gruppo di sicurezza). 

1. Fornisci un nome per il nuovo gruppo di sicurezza (ad esempio `datawrangler-doc-snowflake-privatelink-connection`) e una descrizione. Assicurati di selezionare l'ID VPC che hai usato nelle fasi precedenti. 

1. Aggiungi due regole per consentire il traffico dall'interno del tuo VPC a questo endpoint VPC. 

   Accedi al tuo VPC sotto **Your VPCs** in una scheda separata e recupera il blocco CIDR per il tuo VPC. Poi scegli **Add Rule** (Aggiungi regola) nella sezione **Inbound Rules** (Regole in entrata). Seleziona `HTTPS` per il tipo, lascia **Source** (Origine) come **Custom** (Personalizzata) nel modulo e incolla il valore recuperato dalla chiamata precedente `describe-vpcs` (ad esempio `10.0.0.0/16`). 

1. Scegli **Crea gruppo di sicurezza**. Recupera il**Security Group ID** (ID del gruppo di sicurezza) dal gruppo di sicurezza appena creato (ad esempio `sg-xxxxxxxxxxxxxxxxx`).

1. Nella schermata di configurazione **VPC Endpoint** (Endpoint VPC), rimuovi il gruppo di sicurezza predefinito. Incolla l'ID del gruppo di sicurezza nel campo di ricerca e seleziona la casella di controllo.  
![\[La sezione Gruppo di sicurezza nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-security-group.png)

1. Seleziona **Create endpoint** (Crea endpoint). 

1. Se la creazione dell'endpoint ha esito positivo, viene visualizzata una pagina contenente un collegamento alla configurazione dell'endpoint VPC, specificata dall'ID VPC. Seleziona il link per visualizzare la configurazione completa.   
![\[La sezione Dettagli dell’endpoint.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-success-endpoint.png)

   Recupera il record più in alto nell'elenco dei nomi DNS. Questo può essere differenziato dagli altri nomi DNS perché include solo il nome della Regione (ad esempio `us-west-2`) e nessuna notazione in lettere della zona di disponibilità (come `us-west-2a`). Archivia queste informazioni per un uso successivo.

##### Configura DNS per gli endpoint Snowflake nel tuo VPC
<a name="data-wrangler-snowflake-vpc-privatelink-dns"></a>

In questa sezione viene descritto come configurare DNS per gli endpoint Snowflake nel VPC. Ciò consente al tuo VPC di risolvere le richieste all'endpoint AWS PrivateLink Snowflake. 

1. Vai al [menu Route 53](https://console.aws.amazon.com/route53) all'interno della tua AWS console.

1. Seleziona l'opzione **Hosted Zones** (Zona ospitata) (se necessario, espandi il menu a sinistra per trovare questa opzione).

1. Scegli **Create Hosted Zone (Crea zona ospitata)**.

   1. Nel campo **Domain name** (Nome dominio), fai riferimento al valore memorizzato per `privatelink-account-url` nelle fasi precedenti. In questo campo, l'ID dell'account Snowflake viene rimosso dal nome DNS e utilizza solo il valore che inizia con l'identificatore della Regione. Successivamente viene creato anche un **Resource Record Set** (Set di registri delle risorse) per il sottodominio, ad esempio `region.privatelink.snowflakecomputing.com`.

   1. Seleziona il pulsante di opzione per **Private Hosted Zone** (Zona ospitata privata) nella sezione **Type** (Tipo). Il tuo codice regionale potrebbe non essere `us-west-2`. Fai riferimento al nome DNS che ti è stato restituito da Snowflake.  
![\[La pagina Crea zona ospitata nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-create-hosted-zone.png)

   1. Nella sezione **VPCs Da associare alla zona ospitata**, seleziona la regione in cui si trova il tuo VPC e l'ID VPC utilizzato nei passaggi precedenti.  
![\[La sezione VPCs da associare alla zona ospitata nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-vpc-hosted-zone.png)

   1. Scegli **Crea zona ospitata**.

1. Quindi, crea due record, uno per `privatelink-account-url` e uno altro per `privatelink_ocsp-url`
   + Nel menu **Hosted Zone**, scegli **Create Record Set** (Crea set di record).

     1. In **Record name** (Nome del record), inserisci solo l'ID del tuo account Snowflake (i primi 8 caratteri in `privatelink-account-url`)

     1. In **Record type** (Tipo di record), seleziona **CNAME**.

     1. In **Valore**, inserisci il nome DNS per l'endpoint VPC regionale recuperato nell'ultima fase della sezione *Configurazione dell’integrazione AWS PrivateLink di Snowflake*.   
![\[La sezione Creazione rapida di record nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-quick-create-record.png)

     1. Scegli **Crea record**.

     1. Ripeti le fasi precedenti per il record OCSP con cui abbiamo annotato come `privatelink-ocsp-url`, iniziando con `ocsp` fino all'ID Snowflake di 8 caratteri per il nome del record (Come `ocsp.xxxxxxxx`).  
![\[La sezione Creazione rapida di record nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-quick-create-ocsp.png)

##### Configurare endpoint in entrata del resolver Route 53 del VPC
<a name="data-wrangler-snowflake-vpc-privatelink-route53"></a>

Questa sezione spiega come configurare gli endpoint in entrata dei resolver Route 53 del VPC.

1. Vai al [menu Route 53](https://console.aws.amazon.com/route53) all'interno della tua AWS console.
   + Nel pannello a sinistra della sezione **Security** (Sicurezza), seleziona l'opzione **Security Groups** (Gruppi di sicurezza).

1. Scegli **Crea gruppo di sicurezza**. 
   + Fornisci un nome per il tuo gruppo di sicurezza (ad esempio `datawranger-doc-route53-resolver-sg`) e una descrizione.
   + Seleziona l'ID VPC utilizzato nelle fasi precedenti.
   + Crea regole che consentano il DNS su UDP e TCP dall'interno del blocco VPC CIDR.   
![\[La sezione Regole in entrata nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-inbound-rules.png)
   + Scegli **Crea gruppo di sicurezza**. Prendi nota del **Security Group ID** perché aggiunge una regola per consentire il traffico verso il gruppo di sicurezza degli endpoint VPC.

1. Vai al [menu Route 53](https://console.aws.amazon.com/route53) all'interno della tua AWS console.
   + Nella sezione **Resolver**, seleziona l'opzione **Inbound Endpoint** (Endpoint in entrata).

1. Scegli **Create inbound endpoint** (Crea endpoint in entrata). 
   + Fornire un nome endpoint.
   + Dall'elenco a discesa **VPC in the Region** (VPC nella Regione), seleziona l'ID VPC che hai utilizzato in tutte le fasi precedenti. 
   + Nell'elenco a discesa **Security group for this endpoint** (Gruppo di sicurezza per questo endpoint), seleziona l'ID del gruppo di sicurezza dalla fase 2 di questa sezione.   
![\[La sezione Impostazioni generali per l’endpoint in entrata nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-inbound-endpoint.png)
   + Nella sezione **IP Address** (Indirizzo IP), seleziona una zona di disponibilità, seleziona una sottorete e lascia selezionato automaticamente il selettore radio **Use an IP address that is selected automatically** (Usa un indirizzo IP selezionato automaticamente) per ogni indirizzo IP.   
![\[La sezione Indirizzo IP nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-ip-address-1.png)
   + Seleziona **Invia**.

1. Seleziona **Inbound endpoint** (Endpoint in entrata) dopo averlo creato.

1. Una volta creato l'endpoint in entrata, annota i due indirizzi IP dei resolver.  
![\[La sezione Indirizzi IP nella console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/studio/mohave/snowflake-ip-addresses-2.png)

##### SageMaker Endpoint AI VPC
<a name="data-wrangler-snowflake-sagemaker-vpc-endpoints"></a>

 Questa sezione spiega come creare endpoint VPC per: Amazon SageMaker Studio Classic, SageMaker Notebooks, SageMaker API, Runtime Runtime e Amazon Feature Store SageMaker Runtime. SageMaker 

**Creare un gruppo di sicurezza applicato a tutti gli endpoint.**

1. Vai al menu [EC2](https://console.aws.amazon.com/ec2) nella console. AWS 

1. Nella sezione **Network & Security** (Rete e sicurezza), seleziona l'opzione **Security groups** (Gruppi di sicurezza).

1. Scegliere **Create Security Group** (Crea gruppo di sicurezza).

1. Indicare un nome e una descrizione del gruppo di sicurezza (come `datawrangler-doc-sagemaker-vpce-sg`). Successivamente viene aggiunta una regola per consentire il traffico su HTTPS dall' SageMaker IA a questo gruppo. 

**Creazione dell'endpoint**

1. Vai al [menu VPC](https://console.aws.amazon.com/vpc) nella AWS console.

1. Seleziona l'opzione **Endpoints**.

1. Scegliere **Create Endpoint** (Crea endpoint).

1. Cerca il servizio inserendone il nome nel campo **Search** (Cerca).

1. Dall'elenco a discesa **VPC**, seleziona il VPC in cui esiste la connessione Snowflake. AWS PrivateLink 

1. Nella sezione **Subnet, seleziona le sottoreti** che hanno accesso alla connessione Snowflake. PrivateLink 

1. Per **Enable DNS Name** (Abilita nome DNS, lasciare la casella di controllo selezionata.

1. Nella sezione **Security Groups** (Gruppi di sicurezza), seleziona il gruppo di sicurezza creato nella sezione precedente.

1. Scegliere **Create Endpoint** (Crea endpoint).

**Configurazione di Studio Classic e Data Wrangler**

In questa sezione viene spiegato come configurare Studio Classic e Data Wrangler.

1. Configura il gruppo di sicurezza.

   1. Accedi al menu Amazon EC2 nella AWS console.

   1. Seleziona l'opzione **Security Groups** (Gruppi di sicurezza) nella sezione **Network & Security** (Rete e sicurezza).

   1. Scegli **Crea gruppo di sicurezza**. 

   1. Fornisci un nome e una descrizione per il tuo gruppo di sicurezza (ad esempio `datawrangler-doc-sagemaker-studio`). 

   1. Creare le seguenti regole in entrata.
      + La connessione HTTPS al gruppo di sicurezza che hai fornito per la PrivateLink connessione Snowflake che hai creato nella fase di *configurazione dell'*integrazione Snowflake. PrivateLink 
      + *La connessione HTTP al gruppo di sicurezza che hai fornito per la connessione Snowflake che hai creato nella fase di configurazione dell'integrazione PrivateLink con Snowflake. PrivateLink *
      + Il gruppo di sicurezza UDP e TCP per DNS (porta 53) a Route 53 Resolver Inbound Endpoint che crei nella fase 2 di *Configurare endpoint in entrata del resolver Route 53 del VPC*.

   1. Scegli il pulsante **Crea gruppo di sicurezza** nell'angolo in basso a destra.

1. Configura Studio Classic.
   + Vai al menu SageMaker AI nella console. AWS 
   + Dalla console di sinistra, seleziona l'opzione **SageMaker AI Studio Classic**.
   + Se non hai alcun dominio configurato, è presente il menu **Get Started** (Inizia).
   + Seleziona l'opzione **Standard Setup** (Configurazione standard) dal menu **Get Started**.
   + Per **Authentication method** (Metodo di autenticazione), scegliere **AWS Identity and Access Management (IAM)**.
   + Dal menu **Permissions** (Autorizzazioni), puoi creare un nuovo ruolo o utilizzare un ruolo preesistente, a seconda del tuo caso d'uso.
     + Se scegli **Create a new role** (Crea un nuovo ruolo), ti viene presentata la possibilità di fornire un nome per il bucket S3 e viene generata una policy automatica.
     + Se hai già creato un ruolo con autorizzazioni per i bucket S3 a cui richiedi l'accesso, seleziona il ruolo dall'elenco a discesa. A questo ruolo deve essere collegata la policy `AmazonSageMakerFullAccess`.
   + Seleziona l'elenco a discesa **Rete e archiviazione** per configurare il VPC, la sicurezza e le SageMaker sottoreti utilizzate dall'IA.
     + In **VPC, seleziona il VPC** in cui esiste la connessione Snowflake. PrivateLink 
     + In **Subnet (s)**, seleziona le sottoreti che hanno accesso alla connessione Snowflake. PrivateLink
     + In **Accesso diretto per Studio Classic**, seleziona **Solo VPC**.
     + In **Security Group(s)** seleziona il gruppo di sicurezza creato nella fase 1.
   + Scegli **Invia**.

1. Modifica il gruppo di sicurezza AI. SageMaker 
   + Crea le seguenti regole in entrata:
     + Porta 2049 ai gruppi di sicurezza NFS in entrata e in uscita creati automaticamente da SageMaker AI nel passaggio 2 (i nomi dei gruppi di sicurezza contengono l'ID di dominio Studio Classic).
     + Accesso diretto a tutte le porte TCP (richiesto solo per SageMaker AI for VPC).

1. Modificare i gruppi di sicurezza degli endpoint VPC:
   + Accedi al menu Amazon EC2 nella AWS console.
   + Individua il gruppo di sicurezza che hai creato nella fase precedente.
   + Aggiungi una regola in entrata che consenta il traffico HTTPS proveniente dal gruppo di sicurezza creato nella fase 1.

1. Creare un profilo utente.
   + Dal **pannello di controllo di SageMaker Studio Classic**, scegli **Aggiungi utente**.
   + Fornisci un nome utente. 
   + Per **Execution Role** (Ruolo di esecuzione), scegli se creare un nuovo ruolo o se utilizzare un ruolo preesistente.
     + Se scegli **Create a new role** (Crea un nuovo ruolo), ti viene presentata la possibilità di fornire un nome per il bucket Amazon S3 e viene generata una policy automatica.
     + Se hai già creato un ruolo con autorizzazioni ai bucket Amazon S3 a cui richiedi l'accesso, seleziona il ruolo dall'elenco a discesa. A questo ruolo deve essere collegata la policy `AmazonSageMakerFullAccess`.
   + Seleziona **Invia**. 

1. Creare un flusso di dati (segui la guida per data scientist descritta in una sezione precedente). 
   + Quando aggiungete una connessione Snowflake, inserite il valore di `privatelink-account-name` (dal passaggio *Configurazione dell' PrivateLinkintegrazione con Snowflake*) nel campo del nome dell'account **Snowflake (alfanumerico), anziché il semplice nome dell'account** Snowflake. Tutto il resto rimane invariato.

#### Fornire informazioni al data scientist
<a name="data-wrangler-snowflake-admin-ds-info"></a>

Fornisci al data scientist le informazioni di cui ha bisogno per accedere a Snowflake da Amazon SageMaker AI Data Wrangler.

**Importante**  
I tuoi utenti devono eseguire Amazon SageMaker Studio Classic versione 1.3.0 o successiva. Per informazioni su come verificare la versione di Studio Classic e aggiornarla, consulta [Prepara i dati ML con Amazon SageMaker Data Wrangler](data-wrangler.md).

1. Per consentire al tuo data scientist di accedere a Snowflake da SageMaker Data Wrangler, forniscigli uno dei seguenti:
   + Per l'autenticazione di base, un nome account Snowflake, un nome utente e una password.
   + Ad esempio OAuth, un nome utente e una password nel provider di identità.
   + Per quanto riguarda l'ARN, il Secrets Manager rende segreto il nome della risorsa Amazon (ARN).
   + Un segreto creato con [AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) e l'ARN del segreto. Usa la seguente procedura per creare il segreto per Snowflake se scegli questa opzione.
**Importante**  
Se i data scientist utilizzano l'opzione **Snowflake Credentials (User name and Password)** (Credenziali Snowflake (nome utente e password)) per connettersi a Snowflake, è possibile utilizzare [Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) per archiviare le credenziali in un luogo segreto. Secrets Manager ruota i segreti come parte di un piano di sicurezza delle best practice. Il segreto creato in Secrets Manager è accessibile solo se il ruolo di Studio Classic viene configurato insieme al profilo utente di Studio Classic. Questo richiede l’aggiunta dell’autorizzazione `secretsmanager:PutResourcePolicy` alla policy collegata al tuo ruolo di Studio Classic.  
Ti consigliamo vivamente di definire l’ambito della policy relativa al ruolo in modo da utilizzare ruoli distinti per i diversi gruppi di utenti di Studio Classic. È possibile aggiungere ulteriori autorizzazioni basate sulle risorse per i segreti di Secrets Manager. Vedi [Manage Secret Policy](https://docs.aws.amazon.com/secretsmanager/latest/userguide/manage_secret-policy.html) per le chiavi di condizione che puoi utilizzare.  
Per informazioni sulla creazione di un segreto, consulta [Creazione di un segreto](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html). I segreti che crei ti verranno addebitati.

1. (Facoltativo) Fornisci al data scientist il nome dell'integrazione di storage che hai creato utilizzando la seguente procedura [Creare un'integrazione di archiviazione cloud in Snowflake](                                      https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-3-create-a-cloud-storage-integration-in-snowflake). Questo è il nome della nuova integrazione e viene chiamata `integration_name` nel comando SQL `CREATE INTEGRATION` che hai eseguito, illustrato nel frammento seguente: 

   ```
     CREATE STORAGE INTEGRATION integration_name
     TYPE = EXTERNAL_STAGE
     STORAGE_PROVIDER = S3
     ENABLED = TRUE
     STORAGE_AWS_ROLE_ARN = 'iam_role'
     [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ]
     STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/')
     [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]
   ```

### Guida per Data Scientist
<a name="data-wrangler-snowflake-ds"></a>

Utilizza quanto segue per connettere Snowflake e accedere ai tuoi dati in Data Wrangler.

**Importante**  
L'amministratore deve utilizzare le informazioni nelle sezioni precedenti per configurare Snowflake. Se riscontri problemi, contattali per ricevere assistenza sulla risoluzione dei problemi.

Puoi collegarti a Snowflake in uno dei seguenti modi:
+ Specificando le credenziali Snowflake (nome account, nome utente e password) in Data Wrangler. 
+ Fornendo un nome della risorsa Amazon (ARN) di un segreto contenente le credenziali.
+ Utilizzo di uno standard aperto per il provider di delega di accesso (OAuth) che si connette a Snowflake. L'amministratore può darti accesso a uno dei seguenti provider: OAuth 
  + [Azure AD](https://docs.snowflake.com/en/user-guide/oauth-azure.html)
  + [Okta](https://docs.snowflake.com/en/user-guide/oauth-okta.html)
  + [Ping Federate](https://docs.snowflake.com/en/user-guide/oauth-pingfed.html)

Parla con il tuo amministratore del metodo da utilizzare per connetterti a Snowflake.

Le seguenti sezioni contengono informazioni su come connettersi a Snowflake utilizzando i metodi precedenti.

------
#### [ Specifying your Snowflake Credentials ]

**Per importare un set di dati in Data Wrangler da Snowflake utilizzando le tue credenziali**

1. Accedi [ad Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Scegli **Studio**

1. Scegli **Launch app**.

1. Dall'elenco a discesa, seleziona **Studio**.

1. Scegli l'icona Home.

1. Selezionare **Data** (Dati).

1. Scegli **Data Wrangler**.

1. Scegli **Import data** (Importa dati).

1. In **Available** ( Disponibile), scegli **Snowflake**.

1. Per **Connection name** (Nome connessione), specificate un nome che identifichi in modo univoco la connessione.

1. Per **Authentication method** (Metodo di autenticazione), selezionare **Basic Username-Password** (Nome utente e password di base).

1. Per **Snowflake account name (alphanumeric)** (Nome dell'account Snowflake (alfanumerico)), specifica il nome completo dell'account Snowflake.

1. Per **Username**, specifica il nome utente che usi per accedere all'account Snowflake.

1. Per **Password**, specifica la password associata al nome utente.

1. (Facoltativo) Per **Advanced settings** (Impostazioni avanzate), specificare quanto segue:
   + **Role**: un ruolo all'interno di Snowflake. Alcuni ruoli hanno accesso a diversi set di dati. Se non si specifica un ruolo, Data Wrangler utilizza il ruolo predefinito nel proprio account Snowflake.
   + **Storage integration** (Integrazione dello storage): quando si specifica ed esegue una query, Data Wrangler crea una copia temporanea dei risultati della query in memoria. Per archiviare una copia permanente dei risultati della query, specifica la posizione Amazon S3 per l'integrazione dello storage. L'amministratore ti ha fornito l'URI S3.
   + **KMS key ID**: una chiave KMS che hai creato. È possibile specificare il relativo ARN per crittografare l'output della query Snowflake. Altrimenti, Data Wrangler utilizza la crittografia predefinita.

1. Scegli **Connetti**.

------
#### [ Providing an Amazon Resource Name (ARN) ]

**Per importare un set di dati in Data Wrangler da Snowflake utilizzando un ARN**

1. Accedi [ad Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Scegli **Studio**

1. Scegli **Launch app**.

1. Dall'elenco a discesa, seleziona **Studio**.

1. Scegli l'icona Home.

1. Selezionare **Data** (Dati).

1. Scegli **Data Wrangler**.

1. Scegli **Import data** (Importa dati).

1. In **Available** ( Disponibile), scegli **Snowflake**.

1. Per **Connection name** (Nome connessione), specificate un nome che identifichi in modo univoco la connessione.

1. Per **Authentication method** (Metodo di autenticazione), scegli **ARN**.

1. **Secrets Manager ARN**: l'ARN del Gestione dei segreti AWS segreto utilizzato per memorizzare le credenziali utilizzate per connettersi a Snowflake.

1. (Facoltativo) Per **Advanced settings** (Impostazioni avanzate), specificare quanto segue:
   + **Role**: un ruolo all'interno di Snowflake. Alcuni ruoli hanno accesso a diversi set di dati. Se non si specifica un ruolo, Data Wrangler utilizza il ruolo predefinito nel proprio account Snowflake.
   + **Storage integration** (Integrazione dello storage): quando si specifica ed esegue una query, Data Wrangler crea una copia temporanea dei risultati della query in memoria. Per archiviare una copia permanente dei risultati della query, specifica la posizione Amazon S3 per l'integrazione dello storage. L'amministratore ti ha fornito l'URI S3.
   + **KMS key ID**: una chiave KMS che hai creato. È possibile specificare il relativo ARN per crittografare l'output della query Snowflake. Altrimenti, Data Wrangler utilizza la crittografia predefinita.

1. Scegli **Connetti**.

------
#### [ Using an OAuth Connection ]

**Importante**  
L'amministratore ha personalizzato l'ambiente Studio Classic per fornire le funzionalità utilizzate per utilizzare una connessione. OAuth Potrebbe essere necessario riavviare l'applicazione server Jupyter per utilizzare la funzionalità.  
Utilizza la procedura seguente per aggiornare l'applicazione server Jupyter.  
In Studio Classic, scegli **File**.
Scegli **Shut down** (Chiudi sessione).
Scegli **Shut down server** (Chiudi server).
Chiudi la scheda o la finestra aperta per accedere a Studio Classic.
Dalla console Amazon SageMaker AI, apri Studio Classic.

**Per importare un set di dati in Data Wrangler da Snowflake utilizzando le tue credenziali**

1. Accedi [ad Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Scegli **Studio**

1. Scegli **Launch app**.

1. Dall'elenco a discesa, seleziona **Studio**.

1. Scegli l'icona Home.

1. Selezionare **Data** (Dati).

1. Scegli **Data Wrangler**.

1. Scegli **Import data** (Importa dati).

1. In **Available** ( Disponibile), scegli **Snowflake**.

1. Per **Connection name** (Nome connessione), specificate un nome che identifichi in modo univoco la connessione.

1. Per il **metodo di autenticazione**, scegli **OAuth**.

1. (Facoltativo) Per **Advanced settings** (Impostazioni avanzate), specificare quanto segue:
   + **Role**: un ruolo all'interno di Snowflake. Alcuni ruoli hanno accesso a diversi set di dati. Se non si specifica un ruolo, Data Wrangler utilizza il ruolo predefinito nel proprio account Snowflake.
   + **Storage integration** (Integrazione dello storage): quando si specifica ed esegue una query, Data Wrangler crea una copia temporanea dei risultati della query in memoria. Per archiviare una copia permanente dei risultati della query, specifica la posizione Amazon S3 per l'integrazione dello storage. L'amministratore ti ha fornito l'URI S3.
   + **KMS key ID**: una chiave KMS che hai creato. È possibile specificare il relativo ARN per crittografare l'output della query Snowflake. Altrimenti, Data Wrangler utilizza la crittografia predefinita.

1. Scegli **Connetti**.

------

Puoi iniziare il processo di importazione dei dati da Snowflake dopo esserti connesso.

In Data Wrangler, puoi visualizzare i data warehouse, i database e gli schemi, oltre all'icona a forma di occhio con cui puoi visualizzare l'anteprima della tabella. Selezionando l'icona **Preview Table** (anteprima della tabella), viene generata l'anteprima dello schema di quella tabella. È necessario selezionare un warehouse prima di visualizzare l'anteprima di una tabella.

**Importante**  
Se stai importando un set di dati con colonne di tipo `TIMESTAMP_TZ` o `TIMESTAMP_LTZ`, aggiungi `::string` ai nomi delle colonne della tua query. Per maggiori informazioni, consulta [Procedura: scaricare i dati TIMESTAMP\$1TZ e TIMESTAMP\$1LTZ su un file Parquet](https://community.snowflake.com/s/article/How-To-Unload-Timestamp-data-in-a-Parquet-file).

Dopo aver selezionato un data warehouse, un database e uno schema, potrai scrivere query ed eseguirle. L'output della query viene visualizzato in **Query results** (Risultati della query).

Dopo aver stabilito l'output della query, è possibile importare l'output della query in un flusso di Data Wrangler per eseguire trasformazioni dei dati. 

Dopo aver importato i dati, accedi al flusso di Data Wrangler e inizia ad aggiungervi trasformazioni. Per un elenco di trasformazioni disponibili, consulta [Trasformazione dei dati](data-wrangler-transform.md).

## Importare dati da piattaforme Software as a Service (SaaS)
<a name="data-wrangler-import-saas"></a>

Puoi utilizzare Data Wrangler per importare dati da più di quaranta piattaforme software as a service (SaaS). Per importare i dati dalla tua piattaforma SaaS, tu o il tuo amministratore dovete utilizzare Amazon AppFlow per trasferire i dati dalla piattaforma ad Amazon S3 o Amazon Redshift. Per ulteriori informazioni su Amazon AppFlow, consulta [What is Amazon AppFlow?](https://docs.aws.amazon.com/appflow/latest/userguide/what-is-appflow.html) Se non hai bisogno di usare Amazon Redshift, ti consigliamo di trasferire i dati su Amazon S3 per un processo più semplice.

Data Wrangler supporta il trasferimento di dati dalle seguenti piattaforme SaaS:
+ [Amplitude](https://docs.aws.amazon.com/appflow/latest/userguide/amplitude.html)
+ [Asana](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-asana.html)
+ [Braintree](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-braintree.html)
+ [CircleCI](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-circleci.html)
+ [DocuSign Monitor (Monitoraggio)](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-docusign-monitor.html)
+ [Lieto](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-delighted.html)
+ [Domo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-domo.html)
+ [Datadog](https://docs.aws.amazon.com/appflow/latest/userguide/datadog.html)
+ [Dynatrace](https://docs.aws.amazon.com/appflow/latest/userguide/dynatrace.html)
+ [Annunci su Facebook](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-ads.html)
+ [Approfondimenti sulla pagina Facebook](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-page-insights.html)
+ [Annunci Google](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-ads.html)
+ [Google Analytics 4](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-analytics-4.html)
+ [Google Calendar](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-calendar.html)
+ [Console di ricerca Google](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-search-console.html)
+ [GitHub](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-github.html)
+ [GitLab](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-gitlab.html)
+ [Infor Nexus](https://docs.aws.amazon.com/appflow/latest/userguide/infor-nexus.html)
+ [Annunci Instagram](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-instagram-ads.html)
+ [Intercom](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-intercom.html)
+ [JDBC (Sync)](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jdbc.html)
+ [Jira Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jira-cloud.html)
+ [LinkedIn Annunci](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html)
+ [Mailchimp](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mailchimp.html)
+ [Marketo](https://docs.aws.amazon.com/appflow/latest/userguide/marketo.html)
+ [Microsoft Dynamics 365](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-dynamics-365.html)
+ [Microsoft Teams](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-teams.html)
+ [Mixpanel](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mixpanel.html)
+ [Okta](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-okta.html)
+ [Oracle HCM](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-oracle-hcm.html)
+ [Pagamento con Paypal](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-paypal.html)
+ [Pendo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-pendo.html)
+ [Salesforce](https://docs.aws.amazon.com/appflow/latest/userguide/salesforce.html)
+ [Salesforce Marketing Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-salesforce-marketing-cloud.html)
+ [Salesforce Pardot](https://docs.aws.amazon.com/appflow/latest/userguide/pardot.html)
+ [SAP OData](https://docs.aws.amazon.com/appflow/latest/userguide/sapodata.html)
+ [SendGrid](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-sendgrid.html)
+ [ServiceNow](https://docs.aws.amazon.com/appflow/latest/userguide/servicenow.html)
+ [Singular](https://docs.aws.amazon.com/appflow/latest/userguide/singular.html)
+ [Slack](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html)
+ [Smartsheet](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-smartsheet.html)
+ [Annunci Snapchat](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-snapchat-ads.html)
+ [Stripe](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-stripe.html)
+ [Trend Micro](https://docs.aws.amazon.com/appflow/latest/userguide/trend-micro.html)
+ [Typeform](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-typeform.html)
+ [Veeva](https://docs.aws.amazon.com/appflow/latest/userguide/veeva.html)
+ [WooCommerce](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-woocommerce.html)
+ [Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html)
+ [Chat Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-chat.html)
+ [Zendesk Sell](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sell.html)
+ [Zendesk Sunshine](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sunshine.html)
+ [Zoho CRM](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoho-crm.html)
+ [Riunioni Zoom](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoom-meetings.html)

L'elenco precedente contiene collegamenti a ulteriori informazioni sulla configurazione dell'origine dati. Tu o il tuo amministratore potete fare riferimento ai collegamenti precedenti dopo aver letto le seguenti informazioni.

Quando accedi alla scheda **Import** (Importa) del flusso di Data Wrangler, vedi le origine dati nelle seguenti sezioni:
+ **Disponibilità**
+ **Configurazione origini dati**

Puoi connetterti a origine dati in **Available** (Disponibile) senza bisogno di configurazioni aggiuntive. Puoi scegliere l'origine dati e importare i tuoi dati.

In **Configurazione delle sorgenti dati**, richiedi a te o al tuo amministratore di utilizzare Amazon AppFlow per trasferire i dati dalla piattaforma SaaS ad Amazon S3 o Amazon Redshift. Per informazioni sull'esecuzione di un trasferimento, consulta [Utilizzo di Amazon AppFlow per trasferire i tuoi dati](#data-wrangler-import-saas-transfer).

Dopo aver eseguito il trasferimento dei dati, la piattaforma SaaS viene visualizzata come origine dati in **Available** (Disponibile). Puoi sceglierla e importare i dati che hai trasferito in Data Wrangler. I dati trasferiti vengono visualizzati sotto forma di tabelle su cui è possibile effettuare delle query.

### Utilizzo di Amazon AppFlow per trasferire i tuoi dati
<a name="data-wrangler-import-saas-transfer"></a>

Amazon AppFlow è una piattaforma che puoi utilizzare per trasferire dati dalla tua piattaforma SaaS ad Amazon S3 o Amazon Redshift senza dover scrivere alcun codice. Per eseguire un trasferimento di dati, utilizza Console di gestione AWS

**Importante**  
Devi assicurarti di aver impostato le autorizzazioni per eseguire un trasferimento di dati. Per ulteriori informazioni, consulta [AppFlow Autorizzazioni Amazon](data-wrangler-security.md#data-wrangler-appflow-permissions).

Dopo aver aggiunto le autorizzazioni, puoi trasferire i dati. All'interno di Amazon AppFlow, crei un *flusso* per trasferire i dati. Un flusso è una serie di configurazioni. Puoi usarlo per specificare se stai eseguendo il trasferimento dei dati in base a una pianificazione o se stai partizionando i dati in file separati. Dopo aver configurato il flusso, lo esegui per trasferire i dati.

Per informazioni sulla creazione di un flusso, consulta [Creazione di flussi in Amazon AppFlow](https://docs.aws.amazon.com/appflow/latest/userguide/create-flow.html). Per informazioni sull'esecuzione di un flusso, consulta [Attivare un AppFlow flusso Amazon](https://docs.aws.amazon.com/appflow/latest/userguide/run-flow.html).

Dopo il trasferimento dei dati, utilizza la seguente procedura per accedere ai dati in Data Wrangler.
**Importante**  
Prima di provare ad accedere ai tuoi dati, assicurati che il tuo ruolo IAM abbia la seguente policy:  

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "glue:SearchTables",
            "Resource": [
                "arn:aws:glue:*:*:table/*/*",
                "arn:aws:glue:*:*:database/*",
                "arn:aws:glue:*:*:catalog"
            ]
        }
    ]
}
```
Per impostazione predefinita, il ruolo IAM che utilizzi per accedere a Data Wrangler è il `SageMakerExecutionRole`. Per ulteriori informazioni sull'aggiunta di policy, consultare [Aggiunta di autorizzazioni di identità IAM (console)](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html#add-policies-console).

Per connettersi a un'origine dati, esegui le operazioni descritte di seguito.

1. Accedi [ad Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Scegli **Studio**

1. Scegli **Launch app**.

1. Dall'elenco a discesa, seleziona **Studio**.

1. Scegli l'icona Home.

1. Selezionare **Data** (Dati).

1. Scegli **Data Wrangler**.

1. Scegli **Import data** (Importa dati).

1. In **Available** (Disponibile), scegli l'origine dati.

1. Per il campo **Name**, specificare il nome della connessione.

1. (Opzionale) Scegli **Advanced configuration** (Advanced configuration (Configurazione avanzata).

   1. Scegli un **Workgroup** (Gruppo di lavoro).

   1. Se il tuo gruppo di lavoro non ha imposto la posizione di output di Amazon S3 o se non utilizzi un gruppo di lavoro, specifica un valore per **Amazon S3 location of query results** (Posizione Amazon S3 dei risultati delle query).

   1. (Facoltativo) Per **Data retention period**, (Periodo di conservazione dei dati) seleziona la casella di controllo per impostare un periodo di conservazione dei dati e specifica il numero di giorni in cui archiviare i dati prima che vengano eliminati.

   1. (Facoltativo) Per impostazione predefinita, Data Wrangler salva la connessione. È possibile scegliere di deselezionare la casella di controllo e non salvare la connessione.

1. Scegli **Connetti**.

1. Specificare una query.
**Nota**  
Per aiutarti a specificare una query, puoi scegliere una tabella nel pannello di navigazione a sinistra. Data Wrangler mostra il nome della tabella e un'anteprima della tabella. Scegli l'icona accanto al nome tabella per copiare il nome. È possibile utilizzare il nome della tabella nella query.

1. Scegli **Esegui**.

1. Scegli **Import query** (Importa query).

1. Per **Dataset name**, specificare il nome del set di dati.

1. Scegliere **Aggiungi**.

Quando accedi alla schermata **Import data** (Importa dati), puoi vedere la connessione che hai creato. Puoi usare la connessione per importare più dati.

## Archiviazione di dati importati
<a name="data-wrangler-import-storage"></a>

**Importante**  
 Ti consigliamo vivamente di seguire le best practice per proteggere il tuo bucket Amazon S3 seguendo [Security best practices](https://docs.aws.amazon.com/AmazonS3/latest/userguide/security-best-practices.html) (Best practice di sicurezza). 

Quando esegui una query sui dati da Amazon Athena o Amazon Redshift, il set di dati richiesto viene automaticamente archiviato in Amazon S3. I dati vengono archiviati nel bucket SageMaker AI S3 predefinito per la AWS regione in cui utilizzi Studio Classic.

I bucket S3 predefiniti hanno la seguente convenzione di denominazione: `sagemaker-region-account number`. Ad esempio, se il numero del tuo account è 111122223333 e utilizzi Studio Classic in `us-east-1`, i set di dati importati vengono archiviati in `sagemaker-us-east-1-`111122223333. 

 I flussi di Data Wrangler dipendono dalla posizione di questo set di dati Amazon S3, quindi non dovresti modificare questo set di dati in Amazon S3 mentre utilizzi un flusso dipendente. Se modifichi questa posizione S3 e desideri continuare a utilizzare il flusso di dati, devi rimuovere tutti gli oggetti nel file.flow `trained_parameters` Per farlo, scarica il file .flow da Studio Classic e, per ogni istanza `trained_parameters`, elimina tutte le voci. Quando hai finito, `trained_parameters` dovrebbe essere un oggetto JSON vuoto:

```
"trained_parameters": {}
```

Quando esporti e utilizzi il flusso di dati per elaborare i dati, il file .flow che esporti si riferisce a questo set di dati in Amazon S3. Per ottenere ulteriori informazioni, usare le sezioni indicate di seguito. 

### Archiviazione di importazione Amazon Redshift
<a name="data-wrangler-import-storage-redshift"></a>

Data Wrangler memorizza i set di dati che risultano dalla tua query in un file Parquet nel bucket AI S3 predefinito. SageMaker 

Questo file è memorizzato con il seguente prefisso (directory): redshift/ *uuid* /data/, dove viene creato un identificatore univoco per ogni query. *uuid* 

Ad esempio, se il bucket predefinito è`sagemaker-us-east-1-111122223333`, un singolo set di dati richiesto da Amazon Redshift si trova in s3://-1-111122223333/redshift/ /data/. sagemaker-us-east *uuid*

### Archiviazione di importazione Amazon Athena
<a name="data-wrangler-import-storage-athena"></a>

Quando esegui una query su un database Athena e importi un set di dati, Data Wrangler archivia il set di dati, nonché un sottoinsieme di tale set di dati o *preview files* (file di anteprima), in Amazon S3. 

Il set di dati che importi selezionando **Import dataset** (Importa set di dati) viene archiviato in formato Parquet in Amazon S3. 

I file di anteprima vengono scritti in formato CSV quando si seleziona **Run** (Esegui) nella schermata di importazione di Athena e contengono fino a 100 righe del set di dati sottoposto a query. 

Il set di dati da interrogare si trova sotto il prefisso (directory): athena/ /data/, dove viene creato un identificatore univoco per ogni query. *uuid* *uuid*

Ad esempio, se il bucket predefinito è`sagemaker-us-east-1-111122223333`, un singolo set di dati interrogato da Athena si trova in /athena/ /data/. `s3://sagemaker-us-east-1-111122223333` *uuid* *example\$1dataset.parquet*

Il sottoinsieme del set di dati memorizzato per l'anteprima dei dataframe in Data Wrangler è memorizzato con il prefisso: athena/.