Configurazione dell’accesso di rete per il cluster Amazon EMR
Prima di iniziare a utilizzare Amazon EMR o EMR Serverless per le attività di preparazione dei dati in Studio, assicurati che tu o il tuo amministratore abbiate configurato la rete per consentire la comunicazione tra Studio e Amazon EMR. Una volta abilitata la comunicazione, puoi scegliere di:
Nota
Per gli utenti EMR Serverless, la configurazione più semplice prevede la creazione dell’applicazione nell’interfaccia utente di Studio senza modificare le impostazioni predefinite per l’opzione Cloud privato virtuale (VPC). Questo approccio consente di creare l’applicazione all’interno del VPC del dominio SageMaker, eliminando la necessità di configurazioni di rete aggiuntive. Se scegli questa opzione, puoi ignorare la sezione seguente relativa alla configurazione della rete.
Le istruzioni di rete variano a seconda che Studio e Amazon EMR siano implementati all’interno di un Amazon Virtual Private Cloud (VPC) privato o comunichino tramite Internet.
Per impostazione predefinita, Studio o Studio Classic viene eseguito in un VPC gestito da AWS con accesso a Internet. Quando utilizzi una connessione Internet, Studio e Studio Classic accedono alle risorse AWS, ad esempio ai bucket Amazon S3, tramite Internet. Tuttavia, se devi rispettare requisiti di sicurezza per il controllo dell’accesso ai container di dati e processi, ti consigliamo di configurare Studio o Studio Classic e Amazon EMR in modo che dati e container non siano accessibili su Internet. Per controllare l’accesso alle risorse o eseguire Studio o Studio Classic senza accesso pubblico a Internet, puoi specificare il tipo di accesso alla rete VPC only quando effettui l’onboarding al dominio Amazon SageMaker AI. In questo scenario, sia Studio che Studio Classic stabiliscono connessioni ad altri servizi AWS tramite endpoint VPC privati. Per informazioni sulla configurazione di Studio o Studio Classic in modalità VPC only, consulta Connessione dei notebook SageMaker Studio o Studio Classic in un VPC a risorse esterne.
Le prime due sezioni descrivono come garantire la comunicazione tra Studio o Studio Classic e Amazon EMR nei VPC senza accesso pubblico a Internet. L’ultima sezione illustra come garantire la comunicazione tra Studio o Studio Classic e Amazon EMR utilizzando una connessione Internet. Prima di collegare Studio o Studio Classic e Amazon EMR senza un accesso a Internet, assicurati di stabilire gli endpoint per Amazon Simple Storage Service (archiviazione dati), Amazon CloudWatch (registrazione dei log e monitoraggio) e runtime di Amazon SageMaker (controllo granulare degli accessi basato su ruoli o RBAC).
Per connettere Studio o Studio Classic e Amazon EMR:
-
Se Studio o Studio Classic e Amazon EMR si trovano in VPC diversi, nello stesso account AWS o in account diversi, consulta Studio e Amazon EMR si trovano in VPC diversi.
-
Se Studio o Studio Classic e Amazon EMR si trovano nello stesso VPC, consulta Studio e Amazon EMR si trovano nello stesso VPC.
-
Se hai scelto di connettere Studio o Studio Classic e Amazon EMR tramite la rete Internet pubblica, consulta Studio e Amazon EMR comunicano tramite una rete Internet pubblica.
Studio e Amazon EMR si trovano in VPC diversi
Per consentire la comunicazione tra Studio o Studio Classic e Amazon EMR quando sono implementati in VPC diversi:
-
Inizia connettendo i tuoi VPC tramite una connessione di peering dei VPC.
-
Aggiorna le tabelle di routing in ogni VPC per instradare il traffico di rete tra le sottoreti di Studio o Studio Classic e le sottoreti di Amazon EMR in entrambe le direzioni.
-
Configura i tuoi gruppi di sicurezza per consentire il traffico in uscita e in entrata.
Le fasi per connettere Studio o Studio Classic e Amazon EMR sono le stesse indipendentemente dal fatto che le risorse siano implementate in un account AWS singolo (caso d’uso Account singolo) o in più account AWS (caso d’uso Multi-account).
-
Peering VPC
Crea una connessione peering VPC per facilitare il collegamento in rete tra i due VPC (Studio o Studio Classic e Amazon EMR).
-
Dal tuo account Studio o Studio Classic, nella dashboard dei VPC, scegli Connessioni peering, quindi Crea connessione peering.
-
Crea la richiesta di peering del VPC di Studio o Studio Classic all’interno del VPC di Amazon EMR. Quando richiedi il peering in un altro account AWS, scegli Altro account in Seleziona un altro VPC con cui eseguire il peering.
Per il peering multi-account, l’amministratore deve accettare la richiesta dall’account Amazon EMR.
Quando si esegue il peering di sottoreti private, è opportuno abilitare la risoluzione DNS dell'IP privato a livello di connessione di peering dei VPC.
-
-
Tabelle di routing
Invia il traffico di rete tra le sottoreti di Studio o Studio Classic e le sottoreti Amazon EMR in entrambe le direzioni.
Dopo aver stabilito la connessione peering, l’amministratore (per ciascun account dell’accesso multi-account) può aggiungere percorsi alle tabelle di routing delle sottoreti private per instradare il traffico tra le sottoreti di Studio o Studio Classic e di Amazon EMR. Puoi definire questi percorsi accedendo alla sezione Tabelle di routing di ciascun VPC nella dashboard dei VPC.
La seguente illustrazione della tabella di routing di una sottorete VPC di Studio mostra un esempio di routing in uscita dall’account di Studio all’intervallo IP del VPC di Amazon EMR (
2.0.1.0/24in questo caso) tramite la connessione peering.
La seguente illustrazione della tabella di routing di una sottorete di VPC di Amazon EMR mostra un esempio di linea in uscita dal VPC di Amazon EMR all'intervallo IP del VPC di Studio (qui
10.0.20.0/24) tramite la connessione di peering.
-
Gruppi di sicurezza
Infine, il gruppo di sicurezza del dominio Studio o Studio Classic deve consentire il traffico in uscita e il gruppo di sicurezza del nodo primario di Amazon EMR deve consentire il traffico in entrata sulle porte TCP Apache Livy, Hive o Presto (rispettivamente
8998,10000e8889) dal gruppo di sicurezza delle istanze di Studio o Studio Classic. Apache Livyè un servizio che consente l’interazione con Amazon EMR tramite un’interfaccia REST.
Il diagramma seguente mostra un esempio di configurazione di un Amazon VPC che consente ai notebook JupyterLab o Studio Classic di allocare cluster Amazon EMR dai modelli CloudFormation nel Catalogo dei servizi e quindi di connettersi a un cluster Amazon EMR all’interno dello stesso account AWS. Il diagramma fornisce un'ulteriore illustrazione degli endpoint richiesti per una connessione diretta a vari servizi AWS, come Amazon S3 o Amazon CloudWatch, quando i VPC non hanno accesso a Internet. In alternativa, è necessario utilizzare un gateway NAT per consentire alle istanze in sottoreti private di più VPC di condividere un unico indirizzo IP pubblico fornito dal gateway Internet durante l'accesso a Internet.
Studio e Amazon EMR si trovano nello stesso VPC
Se Studio o Studio Classic e Amazon EMR si trovano in sottoreti diverse, aggiungi percorsi a ciascuna tabella di routing della sottorete privata per instradare il traffico tra Studio o Studio Classic e Amazon EMR. Puoi definire questi percorsi accedendo alla sezione Tabelle di routing di ciascun VPC nella dashboard dei VPC. Se hai implementato Studio o Studio Classic e Amazon EMR nello stesso VPC e nella stessa sottorete, non è necessario instradare il traffico tra Studio e Amazon EMR.
Con o senza aggiornamento delle tabelle di routing, il gruppo di sicurezza del dominio Studio o Studio Classic deve consentire il traffico in uscita e il gruppo di sicurezza del nodo primario di Amazon EMR deve consentire il traffico in entrata sulle porte TCP Apache Livy, Hive o Presto (rispettivamente 8998, 10000 e 8889) dal gruppo di sicurezza delle istanze di Studio o Studio Classic. Apache Livy
Studio e Amazon EMR comunicano tramite una rete Internet pubblica
Per impostazione predefinita, Studio e Studio Classic forniscono un’interfaccia di rete che consente la comunicazione con Internet tramite un gateway Internet nel VPC associato al dominio SageMaker. Se scegli di connetterti ad Amazon EMR tramite la rete Internet pubblica, Amazon EMR deve accettare il traffico in entrata sulle porte TCP Apache Livy, Hive o Presto (rispettivamente8998, 10000 e 8889) dal suo gateway Internet. Apache Livy
Tenere presente che qualsiasi porta su cui si consente il traffico in entrata rappresenta una potenziale vulnerabilità per la sicurezza. Esaminare attentamente i gruppi di sicurezza personalizzati per assicurarsi di ridurre al minimo le vulnerabilità. Per ulteriori informazioni, consulta Controllo del traffico di rete con gruppi di sicurezza.
In alternativa, consulta Blog e whitepaper per una guida dettagliata su come abilitare Kerberos su Amazon EMR, impostare il cluster in una sottorete privata e accedere al cluster utilizzando un Network Load Balancer (NLB) per esporre solo porte specifiche, il cui accesso è controllato tramite gruppi di sicurezza.
Nota
Quando ti connetti all’endpoint Apache Livy tramite una rete Internet pubblica, ti consigliamo di proteggere le comunicazioni tra Studio o Studio Classic e il cluster Amazon EMR tramite TLS.
Per informazioni sulla configurazione HTTPS con Apache Livy, consulta Abilitazione di HTTPS con Apache Livy. Per informazioni sull'impostazione di un cluster Amazon EMR con crittografia di transito abilitata, consulta Fornire certificati per crittografare i dati in transito con la crittografia di Amazon EMR. Inoltre, devi configurare Studio o Studio Classic per accedere alla chiave del certificato come specificato in Connettiti a un cluster Amazon EMR tramite HTTPS.