Quando è opportuno utilizzare Athena? - Amazon Athena

Quando è opportuno utilizzare Athena?

Servizi di esecuzione di query come Amazon Athena, data warehouse come Amazon Redshift e sofisticati framework di elaborazione dati come Amazon EMR soddisfano esigenze e casi d'uso diversi. Le seguenti linee guida possono aiutarti a scegliere uno o più servizi in base alle tue esigenze.

Amazon Athena

Athena consente di analizzare dati non strutturati, semistrutturati e strutturati archiviati in Amazon S3. Tra gli esempi figurano CSV, JSON o formati di dati colonnari come Apache Parquet e Apache ORC. È possibile usare Athena per eseguire query ad-hoc con ANSI SQL, senza la necessità di aggregare o caricare i dati in Athena.

Athena si integra con Amazon Quick Suite per facilitare la visualizzazione dei dati. È possibile utilizzare Athena per generare report o per analizzare i dati con strumenti di business intelligence o client SQL, collegati con un driver JDBC o ODBC. Per ulteriori informazioni, consultare la sezione Cos'è Amazon Quick Suite nella Guida per l'utente di Amazon Quick Suite e Connettersi ad Amazon Athena con i driver ODBC e JDBC.

Athena si integra con AWS Glue Data Catalog, che offre un archivio di metadati persistente per i dati in Amazon S3. In questo modo è possibile creare tabelle ed eseguire query in Athena in base a un archivio di metadati centralizzato disponibile nell'account Amazon Web Services e integrato con le caratteristiche di ETL e rilevamento dei dati di AWS Glue. Per ulteriori informazioni, consulta la sezione Utilizzare AWS Glue Data Catalog per connettersi ai tuoi dati e Che cos'è AWS Glue? nella Guida per gli sviluppatori di AWS Glue.

Amazon Athena semplifica l'esecuzione di query interattive sui dati direttamente in Amazon S3 senza dover formattare i dati o gestire l'infrastruttura. Ad esempio, Athena è utile se si desidera eseguire una query rapida sui registri Web per risolvere un problema di prestazioni sul sito. Con Athena puoi iniziare velocemente: devi semplicemente definire una tabella per i tuoi dati e iniziare a eseguire query utilizzando SQL standard.

È consigliabile utilizzare Amazon Athena se si desidera eseguire query SQL interattive ad hoc sui dati su Amazon S3, senza dover gestire alcuna infrastruttura o cluster. Amazon Athena è il modo più semplice per eseguire query ad hoc per i dati in Amazon S3 senza dover configurare o gestire alcun server.

Per un elenco di Servizi AWS che Athena sfrutta e con cui si integra, consulta Integrazioni Servizio AWS con Athena.

SageMaker Unified Studio

Amazon SageMaker Unified Studio semplifica l'utilizzo di Amazon Athena e Amazon Redshift per eseguire query SQL sui dati di SageMaker Lakehouse. Con Unified Studio, è possibile sviluppare query SQL, lavorare con i risultati delle query e collaborare con il proprio team tramite un ambiente notebook integrato. È possibile anche utilizzare l'SQL generativo di Amazon Q per generare codice SQL da input in linguaggio naturale. Per saperne di più, consultare SQL Analytics nella guida per l'utente di SageMaker Unified Studio.

Amazon EMR

Amazon EMR rende semplice e conveniente eseguire framework di elaborazione altamente distribuiti come Hadoop, Spark e Presto rispetto alle distribuzioni locali. Amazon EMR è flessibile: puoi eseguire applicazioni e codice personalizzati e definire parametri specifici di elaborazione, memoria, archiviazione e applicazione per ottimizzare i requisiti analitici.

Oltre all'esecuzione di query SQL, Amazon EMR può eseguire un'ampia gamma di attività di elaborazione dei dati con scalabilità orizzontale per applicazioni come machine learning, analisi dei grafici, trasformazione dei dati, streaming di dati e praticamente tutto ciò che è possibile codificare. È consigliabile utilizzare Amazon EMR se si utilizza codice personalizzato per elaborare e analizzare set di dati estremamente grandi con i più recenti framework di elaborazione di Big Data come Spark, Hadoop, Presto o Hbase. Amazon EMR ti dà il pieno controllo sulla configurazione dei cluster e sul software installato su di essi.

Puoi utilizzare Amazon Athena per interrogare i dati elaborati utilizzando Amazon EMR. Amazon Athena supporta molti degli stessi formati di dati di Amazon EMR. Il catalogo dati di Athena è compatibile con il metastore Hive. Se utilizzi EMR e disponi già di un metastore Hive, puoi eseguire le istruzioni DDL su Amazon Athena e interrogare immediatamente i tuoi dati senza influire sui processi Amazon EMR.

Amazon Redshift

Un data warehouse come Amazon Redshift è la scelta migliore quando è necessario raccogliere dati provenienti da molte fonti diverse, come sistemi di inventario, sistemi finanziari e sistemi di vendita al dettaglio, in un formato comune e archiviarli per lunghi periodi di tempo. Se vuoi creare report aziendali sofisticati a partire da dati storici, un data warehouse come Amazon Redshift è la scelta migliore. Il motore di query in Amazon Redshift è stato ottimizzato per funzionare particolarmente bene nell'esecuzione di query complesse che uniscono un numero elevato di tabelle di database molto grandi. Quando devi eseguire query su dati altamente strutturati con molti join su diverse tabelle di grandi dimensioni, scegli Amazon Redshift.

Per maggiori informazioni su quando utilizzare Athena, consulta le seguenti risorse: