Amazon Redshift ne prendra plus en charge la création de nouveaux Python UDFs à compter du 1er novembre 2025. Si vous souhaitez utiliser Python UDFs, créez la version UDFs antérieure à cette date. Le Python existant UDFs continuera à fonctionner normalement. Pour plus d’informations, consultez le billet de blog
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Commencer avec les entrepôts de données alloués Amazon Redshift
Si vous utilisez Amazon Redshift pour la première fois, nous vous recommandons de lire les sections suivantes pour vous aider à faire vos premiers pas avec les clusters alloués. Le flux de base d’Amazon Redshift consiste à créer des ressources allouées, à se connecter à Amazon Redshift, à charger des exemples de données, puis à exécuter des requêtes sur les données. Dans ce guide, vous pouvez choisir de charger des exemples de données à partir d’Amazon Redshift ou d’un compartiment Amazon S3. Les exemples de données sont utilisés dans l’ensemble de la documentation Amazon Redshift pour démontrer les fonctionnalités.
Ce didacticiel explique comment utiliser les clusters provisionnés Amazon Redshift, qui sont des objets d'entrepôt de AWS données pour lesquels vous gérez les ressources système. Vous pouvez également utiliser Amazon Redshift avec des groupes de travail sans serveur, qui sont des objets d’entrepôt de données qui évoluent automatiquement en fonction de l’utilisation. Pour commencer à utiliser Redshift sans serveur, consultez Premiers pas avec les entrepôts de données Amazon Redshift sans serveur.
Une fois que vous avez créé la console allouée Amazon Redshift et que vous vous y êtes connecté, vous pouvez créer et gérer tous les objets Amazon Redshift, y compris des clusters, des bases de données et des nœuds. Vous pouvez également exécuter des requêtes, afficher des requêtes et effectuer d’autres opérations de langage de définition de données (DDL) et de langage de manipulation de données (DML) avec un client SQL.
Important
Le cluster que vous avez alloué pour cet exercice s’exécute dans un environnement en direct. Tant qu'il fonctionne, il vous est facturéCompte AWS. Pour obtenir des informations sur les prix, consultez la page de tarification Amazon Redshift
Pour éviter des frais inutiles, supprimez votre cluster lorsque vous avez terminé. La dernière section de ce chapitre explique comment procéder.
Connectez-vous à la console Amazon Redshift AWS Management Console et ouvrez-la à l'adresse. https://console.aws.amazon.com/redshiftv2/
Nous vous recommandons de commencer par accéder au Tableau de bord des clusters alloués pour commencer à utiliser la console Amazon Redshift.
En fonction de votre configuration, les éléments suivants apparaissent dans le volet de navigation de la console allouée Amazon Redshift :
Redshift sans serveur : accédez aux données et analyse-les sans avoir besoin de configurer, de régler et de gérer des clusters alloués Amazon Redshift.
Tableau de bord des clusters provisionnés : consultez la liste des clusters présents dans votre compteRégion AWS, consultez les métriques du cluster et la vue d'ensemble des requêtes pour obtenir des informations sur les mesures (telles que l'utilisation du processeur) et des informations de requête. Leur utilisation peut vous aider à déterminer si vos données de performance sont anormales sur une plage de temps spécifiée.
Clusters : affichez votre liste de clusters dans ce documentRégion AWS, choisissez un cluster pour commencer à interroger ou effectuez des actions liées au cluster. Vous pouvez également créer un cluster à partir de cette page.
Éditeur de requêtes v2 : exécutez des requêtes sur les bases de données hébergées par votre cluster Amazon Redshift. Nous vous recommandons d’utiliser l’éditeur de requêtes v2 à la place.
Éditeurs de requêtes v2 : Amazon Redshift Query Editor V2 est une application client SQL web distincte qui permet de créer et d’exécuter des requêtes sur votre entrepôt des données Amazon Redshift. Vous pouvez visualiser vos résultats dans des diagrammes et collaborer en partageant vos requêtes avec d’autres membres de votre équipe.
Queries and loads (Requêtes et charges) : obtenez des informations à des fins de référence ou de dépannage, telles qu’une liste de requêtes récentes et le texte SQL de chaque requête.
Unités de partage des données : un administrateur de compte producteur peut autoriser des comptes consommateur à accéder à des unités de partage des données ou choisir de ne pas autoriser l’accès. Pour utiliser un partage de données autorisé, un administrateur de compte client peut associer le partage de données à un espace de noms de cluster complet Compte AWS ou spécifique d'un compte. Un administrateur peut également refuser une unité de partage des données.
Intégrations zéro ETL : gérez les intégrations qui rendent les données transactionnelles disponibles dans Amazon Redshift après avoir été écrites dans des sources prises en charge.
Connexions IAM Identity Center : configurez la connexion entre Amazon Redshift et IAM Identity Center.
Configurations : connectez-vous aux clusters Amazon Redshift depuis les outils client SQL via des connexions Java Database Connectivity (JDBC) et Open Database Connectivity (ODBC). Vous pouvez également configurer un point de terminaison de cloud privé virtuel (VPC) géré par Amazon Redshift. Cela permet d’établir une connexion privée entre un VPC basé sur le service Amazon VPC qui contient un cluster et un autre VPC exécutant un outil client.
AWSIntégration des partenaires : créez une intégration avec un AWS partenaire pris en charge.
Advisor (Conseiller) : obtenez des recommandations spécifiques concernant les modifications que vous pouvez apporter à votre cluster Amazon Redshift afin de prioriser vos optimisations.
AWSMarketplace : obtenez des informations sur les autres outils ou AWS services compatibles avec Amazon Redshift.
Alarms (Alarmes) : créez des alarmes sur les métriques de cluster pour afficher les données de performance et suivre les métriques sur une période que vous spécifiez.
Events (Événements) : suivez les événements et obtenez des rapports sur des informations telles que la date à laquelle l’événement s’est produit, une description ou la source de l’événement.
What’s new (Nouveautés) : consultez les nouvelles fonctions et les mises à jour des produits Amazon Redshift.
Dans ce tutoriel, vous exécuterez les étapes suivantes.
Rubriques
S'inscrire à AWS
Si vous n'en avez pas encoreCompte AWS, inscrivez-vous. Si vous disposez déjà d’un compte, vous pouvez ignorer ce prérequis et utiliser votre compte existant.
Suivez les instructions en ligne.
Dans le cadre de la procédure d’inscription, vous recevrez un appel téléphonique ou un SMS et vous saisirez un code de vérification en utilisant le clavier numérique du téléphone.
Lorsque vous vous inscrivez à unCompte AWS, un Utilisateur racine d'un compte AWSest créé. Par défaut, seul l’utilisateur racine a accès à l’ensemble des Services AWS et des ressources de ce compte. La meilleure pratique de sécurité consiste à attribuer un accès administratif à un utilisateur, et à utiliser uniquement l’utilisateur racine pour effectuer les tâches nécessitant un accès utilisateur racine.
Déterminer les règles de pare-feu
Note
Ce didacticiel part du principe que votre cluster utilise le port par défaut 5439 et que Amazon Redshift Query Editor V2 peut être utilisé pour exécuter des commandes SQL. Il n’entre pas dans les détails des configurations réseau ou de la configuration d’un client SQL qui pourrait être nécessaire dans votre environnement.
Dans certains environnements, vous spécifiez un port lorsque vous lancez votre cluster Amazon Redshift. Vous utilisez ce port ainsi que l’URL du point de terminaison du cluster pour accéder au cluster. Vous créez également une règle de trafic entrant dans un groupe de sécurité afin de permettre l’accès à votre cluster via le port.
Si votre ordinateur client se trouve derrière un pare-feu, assurez-vous de connaître un port ouvert que vous pouvez utiliser. Ce port ouvert vous permet de vous connecter au cluster à partir d’un outil client SQL et d’exécuter les requêtes. Si vous ne connaissez pas de port ouvert, travaillez avec quelqu’un qui comprend vos règles de pare-feu réseau afin de déterminer un port ouvert dans votre pare-feu.
Bien qu’Amazon Redshift utilise le port 5439 par défaut, la connexion ne fonctionne pas si ce port n’est pas ouvert dans votre pare-feu. Vous ne pouvez pas modifier le numéro de port de votre cluster Amazon Redshift après sa création. Par conséquent, assurez-vous que vous spécifiez un port ouvert qui fonctionne dans votre environnement au cours de la procédure de lancement.
Étape 1 : Créer un exemple de cluster Amazon Redshift
Ce didacticiel vous guidera dans le processus de création d’un cluster Amazon Redshift avec une base de données. Ensuite, vous chargez un jeu de données depuis Amazon S3 dans les tables de votre base de données. Vous pouvez utiliser cet exemple de cluster pour évaluer le service Amazon Redshift.
Avant de commencer à configurer un cluster Amazon Redshift, assurez-vous d’avoir effectué les étapes préalables requises, comme S'inscrire à AWS et Déterminer les règles de pare-feu.
Pour toute opération qui accède aux données d'une autre AWS ressource, votre cluster doit être autorisé à accéder à la ressource et aux données de la ressource en votre nom. Un exemple est l’utilisation d’une instruction SQL COPY pour charger des données depuis Amazon Simple Storage Service (Amazon S3). Vous fournissez ces autorisations en utilisant Gestion des identités et des accès AWS (IAM). Vous pouvez effectuer cette opération via un rôle IAM que vous créez et qui est attaché à votre cluster. Pour plus d’informations sur les informations d’identification et les autorisations d’accès, consultez Informations d’identification et autorisations d’accès dans le Guide du développeur de base de données Amazon Redshift.
Pour créer un cluster Amazon Redshift
-
Connectez-vous à la console Amazon Redshift AWS Management Console et ouvrez-la à l'adresse. https://console.aws.amazon.com/redshiftv2/
Important
Si vous utilisez les informations d’identification utilisateur IAM, vérifiez que l’utilisateur dispose des autorisations nécessaires pour exécuter les opérations de cluster. Pour plus d’informations, consultez Sécurité dans Amazon Redshift dans le Guide de gestion Amazon Redshift.
-
Sur la AWS console, choisissez l'Région AWSendroit où vous souhaitez créer le cluster.
-
Dans le menu de navigation, choisissez Clusters, puis choisissez Créer un cluster. La page Créer un cluster s’affiche.
-
Dans la section Cluster configuration (Configuration du cluster), spécifiez les valeurs Cluster identifier (Identifiant du cluster), du Node type (Type de nœud) et Nodes (Nœuds) :
-
Cluster identifier (Identifiant du cluster) : saisissez
exampleclusterpour ce didacticiel. Cet identifiant doit être unique. Il doit comporter de 1 à 63 caractères et doit être composé des caractères valides suivants : a–z (minuscules uniquement) et - (trait d’union). -
Choisissez l’une des méthodes suivantes pour dimensionner votre cluster :
Note
L'étape suivante suppose un Région AWS qui prend en charge les types de RA3 nœuds. Pour obtenir la liste des types de RA3 nœuds Régions AWS compatibles, consultez la section Présentation des types de RA3 nœuds dans le guide de gestion Amazon Redshift. Pour en savoir plus sur les spécifications de chaque type et taille de nœud, consultez Détails du type de nœud.
-
Si vous ne savez pas quelle taille donner à votre cluster, choisissez Help me choose (Aidez-moi à choisir). Cette opération lance un calculateur de dimensionnement qui vous pose des questions sur la taille et les caractéristiques d’interrogation des données que vous prévoyez de stocker dans votre entrepôt des données.
Si vous connaissez la taille requise de votre cluster (c’est-à-dire le type et le nombre de nœuds), choisissez I’ll choose (Je vais choisir). Choisissez ensuite la valeur Node type (Type de nœud) et le nombre de Nodes (Nœuds) pour dimensionner votre cluster.
Pour ce didacticiel, sélectionnez ra3.4xlarge pour Type de nœud et 2 pour Nombre de nœuds.
Si un choix de configuration AZ est disponible, choisissez Mono-AZ.
Pour utiliser l’exemple de jeu de données fourni par Amazon Redshift, dans Sample data (Exemples de données), choisissez Load sample data (Charger les exemples de données). Amazon Redshift charge l’exemple de jeu de données Tickit dans la base de données
devet le schémapublicpar défaut.
-
-
-
Dans la section Configuration de la base de données, spécifiez une valeur pour Nom de l’utilisateur administrateur. Pour Mot de passe administrateur, choisissez l’une des options suivantes :
-
Générez un mot de passe : utilisez un mot de passe généré par Amazon Redshift.
-
Ajouter manuellement un mot de passe d’administrateur : utilisez votre propre mot de passe.
-
Gérez les informations d'identification d'administrateur dans AWS Secrets Manager : Amazon Redshift les utilise AWS Secrets Manager pour générer et gérer votre mot de passe d'administrateur. L'utilisation AWS Secrets Manager pour générer et gérer le secret de votre mot de passe entraîne des frais. Pour en savoir plus sur la tarification AWS Secrets Manager, consultez Tarification d’AWS Secrets Manager
.
Dans le cadre de ce didacticiel, utilisez les valeurs suivantes :
Admin user name (Nom de l’utilisateur Admin) : saisissez
awsuser.Mot de passe d’utilisateur de l’administrateur : saisissez
Changeit1pour le mot de passe.
-
-
Pour ce didacticiel, créez un rôle IAM et définissez-le comme rôle par défaut pour votre cluster, comme décrit ci-dessous. Il ne peut y avoir qu’un seul rôle IAM par défaut défini pour un cluster.
Sous Cluster permissions (Autorisations de cluster), pour Manage IAM roles (Gérer les rôles IAM), choisissez Create IAM role (Créer un rôle IAM).
Spécifiez un compartiment Amazon S3 auquel le rôle IAM doit accéder à l’aide de l’une des méthodes suivantes :
Choisissez Pas de compartiment Amazon S3 supplémentaire pour permettre au rôle IAM créé d’accéder uniquement aux compartiments Amazon S3 nommés en tant que
redshift.Choisissez N’importe quel compartiment Amazon S3 pour permettre au rôle IAM créé d’accéder à tous les compartiments Amazon S3.
Choisissez Specific Amazon S3 buckets (Compartiments Amazon S3 spécifiques) pour spécifier un ou plusieurs compartiments Amazon S3 pour le rôle IAM en cours de création est autorisé à accéder. Choisissez ensuite un ou plusieurs compartiments Amazon S3 dans le tableau.
Choisissez Create IAM role as default (Créer un rôle IAM par défaut). Amazon Redshift crée et définit automatiquement le rôle IAM comme rôle par défaut pour votre cluster.
Étant donné que vous avez créé votre rôle IAM à partir de la console, il a la politique
AmazonRedshiftAllCommandsFullAccessattachée. Cela permet à Amazon Redshift de copier, de charger, d’interroger et d’analyser des données provenant des ressources Amazon dans votre compte IAM.
Pour obtenir des informations sur la façon de gérer le rôle IAM par défaut pour un cluster, veuillez consulter Création d’un rôle IAM par défaut pour Amazon Redshift dans le Guide de gestion Amazon Redshift.
-
(Facultatif) Dans la section Configurations supplémentaires, désactivez l’option Utiliser les valeurs par défaut pour modifier les paramètres Réseau et sécurité, Configuration de la base de données, Maintenance, Surveillance et Sauvegarde.
Dans certains cas, vous pouvez créer votre cluster avec l’option Load sample data (Charger des exemples de données) et souhaiter activer le routage Amazon VPC amélioré. Si c’est le cas, le cluster de votre cloud privé virtuel (VPC) nécessite l’accès au point de terminaison Amazon S3 pour que les données soient chargées.
Pour rendre le cluster accessible au public, vous pouvez effectuer l’une des deux actions suivantes. Vous pouvez configurer une traduction d’adresses réseau (NAT) dans votre VPC pour que le cluster puisse accéder à Internet. Vous pouvez également configurer un point de terminaison d’un VPC Amazon S3 dans votre VPC. Pour plus d’informations sur le routage Amazon VPC amélioré, consultez Routage Amazon VPC amélioré dans le Guide de gestion Amazon Redshift.
-
Choisissez Créer un cluster. Attendez que votre cluster soit créé avec le statut
Availablesur la page Clusters.
Étape 2 : Configurer les règles entrantes pour les clients SQL
Note
Nous vous recommandons d’ignorer cette étape et d’accéder à votre cluster à l’aide d’Amazon Redshift Query Editor V2.
Plus loin dans ce didacticiel, vous accéderez à votre cluster à partir d’un cloud privé virtuel (VPC) basé sur le service Amazon VPC. Toutefois, si vous utilisez un client SQL qui est situé en dehors de votre pare-feu pour accéder au cluster, assurez-vous d’accorder un accès entrant.
Pour vérifier votre pare-feu et octroyer un accès entrant à votre cluster
Vérifiez les règles de votre pare-feu si votre cluster doit faire l’objet d’un accès depuis l’extérieur du pare-feu. Par exemple, votre client peut être une instance Amazon Elastic Compute Cloud (Amazon EC2) ou un ordinateur externe.
Pour plus d'informations sur les règles de pare-feu, consultez la section Règles des groupes de sécurité dans le guide de EC2 l'utilisateur Amazon.
Pour y accéder depuis un client EC2 externe Amazon, ajoutez une règle d'entrée au groupe de sécurité attaché à votre cluster qui autorise le trafic entrant. Vous ajoutez les règles du groupe EC2 de sécurité Amazon dans la EC2 console Amazon. Par exemple, 192.0.2.0/24 permet aux clients de cette plage d'adresses IP de se connecter à votre cluster. CIDR/IP Trouvez la solution CIDR/IP adaptée à votre environnement.
Étape 3 : Accorder des privilèges d’accès à un client SQL et exécuter des requêtes
Pour interroger les bases de données hébergées par votre cluster Amazon Redshift, plusieurs options s’offrent à vous pour les clients SQL : Il s’agit des licences suivantes :
Connectez-vous à votre cluster et exécutez les requêtes à l’aide d’Amazon Redshift Query Editor V2.
Si vous utilisez l’éditeur de requêtes v2, vous n’avez pas besoin de télécharger et configurer une application client SQL. Vous lancez Amazon Redshift Query Editor V2 à partir de la console Amazon Redshift.
Connectez-vous à votre cluster à l’aide de RSQL Pour plus d’informations, consultez Connexion avec Amazon Redshift RSQL dans le Guide de gestion Amazon Redshift.
-
Connectez-vous à votre cluster par le biais d’un outil client SQL, tel que SQL Workbench/J. Pour plus d’informations, consultez Se connecter à votre cluster en utilisant SQL Workbench/J dans le Guide de gestion Amazon Redshift.
Ce didacticiel utilise Amazon Redshift Query Editor V2 comme une façon simple d’exécuter des requêtes sur les bases de données hébergées par votre cluster Amazon Redshift. Après avoir créé votre cluster, vous pouvez exécuter immédiatement des requêtes. Pour obtenir des informations sur les éléments à prendre en compte lorsque vous utilisez Amazon Redshift Query Editor V2, consultez Remarques concernant l’utilisation de l’éditeur de requêtes v2 dans le Guide de gestion Amazon Redshift.
Accorder des privilèges d'accès à l'éditeur de requête v2
La première fois qu'un administrateur configure l'éditeur de requêtes v2 pour vousCompte AWS, il choisit AWS KMS key celui qui est utilisé pour chiffrer les ressources de l'éditeur de requêtes v2. Les ressources d’Amazon Redshift Query Editor V2 incluent les requêtes, blocs-notes et graphiques enregistrés. Par défaut, une clé appartenant à AWS est utilisée pour chiffrer les ressources. Un administrateur peut également utiliser une clé gérée par le client en choisissant l’Amazon Resource Name (ARN) pour la clé dans la page de configuration. Une fois que vous avez configuré un compte, les paramètres de AWS KMS chiffrement ne peuvent pas être modifiés. Pour plus d’informations, consultez Configuration de votre Compte AWS dans le Guide de gestion Amazon Redshift.
Pour accéder à l’éditeur de requêtes v2, vous avez besoin d’une autorisation. Un administrateur peut attacher l’une des politiques gérées par AWS pour Amazon Redshift Query Editor V2 à l’utilisateur ou au rôle IAM pour accorder des autorisations. Ces politiques AWS gérées sont rédigées avec différentes options qui contrôlent la manière dont le balisage des ressources permet le partage des requêtes. Vous pouvez utiliser la console IAM (https://console.aws.amazon.com/iam/
Vous pouvez également créer votre propre politique basée sur les autorisations autorisées et refusées dans les politiques gérées fournies. Si vous utilisez l’éditeur de politique de la console IAM pour créer votre propre politique, choisissez SQL Workbench en tant que service pour lequel vous créez la politique dans l’éditeur visuel. L'éditeur de requêtes v2 utilise le nom de service AWS SQL Workbench dans l'éditeur visuel et dans le simulateur de politique IAM.
Pour plus d'informations, veuillez consulter la rubrique Utilisation de l'éditeur de requête v2 dans le Guide de gestion Amazon Redshift.
Étape 4 : Charger les données d’Amazon S3 vers Amazon Redshift
Après avoir créé votre cluster, vous pouvez charger les données d’Amazon S3 vers vos tables de base de données. Il existe plusieurs méthodes pour charger les données à partir d’Amazon S3.
Vous pouvez utiliser un client SQL pour exécuter la commande SQL CREATE TABLE afin de créer une table dans votre base de données, puis utiliser la commande SQL COPY pour charger des données depuis Amazon S3. Amazon Redshift Query Editor v2 est un client SQL.
Vous pouvez utiliser l’assistant de chargement d’Amazon Redshift Query Editor V2.
Ce didacticiel explique comment utiliser Amazon Redshift Query Editor V2 pour exécuter des commandes SQL afin de CREATE des tables et de COPY des données. Lancez l’éditeur de requêtes v2 à partir du panneau de navigation de la console Amazon Redshift. Dans l’éditeur de requêtes v2, créez une connexion au cluster examplecluster et à la base de données nommée dev avec votre utilisateur administrateur awsuser. Pour ce didacticiel, sélectionnez Informations d’identification temporaires utilisant un nom d’utilisateur de base de données lorsque vous créez la connexion. Pour plus d’informations sur Amazon Redshift Query Editor v2, consultez Connexion à une base de données Amazon Redshift dans le Guide de gestion Amazon Redshift.
Chargement des données à partir d’Amazon S3 à l’aide des commandes SQL
Dans le volet éditeur de requêtes de l’éditeur de requêtes v2, vérifiez que vous êtes connecté au cluster examplecluster et à la base de données dev. Ensuite, créez des tables dans la base de données et chargez des données dans les tables. Dans le cadre de ce didacticiel, les données que vous chargez sont disponibles dans un compartiment Amazon S3 accessible par de nombreuses personnesRégions AWS.
La procédure suivante crée des tables et charge les données à partir d’un compartiment Amazon S3 public.
Utilisez Amazon Redshift Query Editor V2 pour copier et exécuter les instructions de création de table suivantes pour créer une table dans le schéma public de la base de données dev. Pour plus d’informations sur la syntaxe, consultez CREATE TABLE dans le Guide du développeur de base de données Amazon Redshift.
Pour créer et charger des données à l’aide d’un client SQL tel que l’éditeur de requêtes v2
-
Utilisez la commande SQL suivante pour CREATE la table
sales.drop table if exists sales;create table sales( salesid integer not null, listid integer not null distkey, sellerid integer not null, buyerid integer not null, eventid integer not null, dateid smallint not null sortkey, qtysold smallint not null, pricepaid decimal(8,2), commission decimal(8,2), saletime timestamp); -
Utilisez la commande SQL suivante pour CREATE la table
date.drop table if exists date;create table date( dateid smallint not null distkey sortkey, caldate date not null, day character(3) not null, week smallint not null, month character(5) not null, qtr character(5) not null, year smallint not null, holiday boolean default('N')); -
Chargez la table
salesà partir d’Amazon S3 à l’aide de la commande COPY.Note
Nous recommandons d’utiliser l’instruction COPY pour charger de grands jeux de données dans Amazon Redshift à partir d’Amazon S3. Pour plus d’informations sur la syntaxe COPY, consultez COPY dans le Guide du développeur de la base de données Amazon Redshift.
Pour charger les exemples de données, vous devez fournir l’authentification de votre cluster afin qu’il accède à Amazon S3 en votre nom. Vous fournissez l’authentification en faisant référence au rôle IAM que vous avez créé et que vous avez défini comme
defaultpour votre cluster lorsque vous avez choisi Créer un rôle IAM par défaut au moment de créer le cluster.Chargez la table
salesà l’aide de la commande SQL suivante. Vous pouvez éventuellement télécharger et consulter les données source pour la tablesalesdepuis Amazon S3. . COPY sales FROM 's3://redshift-downloads/tickit/sales_tab.txt' DELIMITER '\t' TIMEFORMAT 'MM/DD/YYYY HH:MI:SS' REGION 'us-east-1' IAM_ROLE default; -
Chargez la table
dateà l’aide de la commande SQL suivante. Vous pouvez éventuellement télécharger et consulter les données source pour la tabledatedepuis Amazon S3. . COPY date FROM 's3://redshift-downloads/tickit/date2008_pipe.txt' DELIMITER '|' REGION 'us-east-1' IAM_ROLE default;
Chargement de données depuis Amazon S3 à l’aide de l’éditeur de requêtes v2
Cette section décrit le chargement de vos propres données dans un cluster Amazon Redshift. L’éditeur de requêtes v2 simplifie le chargement des données à l’aide de l’assistant de chargement des données. La commande COPY générée et utilisée dans l’assistant de chargement de données de l’éditeur de requêtes v2 prend en charge de nombreux paramètres disponibles pour la syntaxe de la commande COPY afin de charger des données depuis Amazon S3. Pour plus d’informations sur la commande COPY et ses options utilisées pour copier une charge à partir d’Amazon S3, consultez Commande COPY depuis Amazon Simple Storage Service dans le Guide du développeur de base de données Amazon Redshift.
Pour charger vos propres données depuis Amazon S3 vers Amazon Redshift, Amazon Redshift nécessite un rôle IAM disposant des privilèges requis pour charger des données à partir du compartiment Amazon S3 spécifié.
Pour charger vos propres données à partir d’Amazon S3 vers Amazon Redshift, vous pouvez utiliser l’assistant de chargement des données de l’éditeur de requêtes v2. Pour plus d’informations sur l’utilisation de l’assistant de chargement des données, consultez Charger des données à partir d’Amazon S3 dans le Guide de gestion Amazon Redshift.
Créer des données TICKIT dans votre cluster
TICKIT est un exemple de base de données que vous pouvez éventuellement charger dans votre cluster Amazon Redshift afin d’apprendre à interroger des données dans Amazon Redshift. Vous pouvez créer l’ensemble complet des tables TICKIT et charger des données dans votre cluster de la manière suivante :
Lorsque vous créez un cluster dans la console Amazon Redshift, vous avez la possibilité de charger des exemples de données TICKIT en même temps. Sur la console Amazon Redshift, choisissez Clusters, puis Créer un cluster. Dans la section Exemples de données, sélectionnez Charger des exemples de données. Amazon Redshift charge automatiquement son exemple de jeu de données dans la base de données
devde votre cluster Amazon Redshift au cours de la création du cluster.Pour vous connecter à un cluster existant, procédez comme suit :
Dans la console Amazon Redshift, choisissez Clusters dans la barre de navigation.
Choisissez votre cluster dans le volet Clusters.
Choisissez Interroger des données, Interroger dans l’éditeur de requêtes v2.
Développez examplecluster dans la liste des ressources. Si c’est la première fois que vous vous connectez à votre cluster, Se connecter à examplecluster apparaît. Choisissez Nom d’utilisateur et le mot de passe de base de données Laissez la base de données sur
dev. Spécifiezawsuserpour le nom d’utilisateur etChangeit1pour le mot de passe.Choisissez Créer une connexion.
Avec Amazon Redshift Query Editor V2, vous pouvez charger les données TICKIT dans un exemple de base de données nommé sample_data_dev. Choisissez la base de données sample_data_dev dans la liste des ressources. À côté du nœud tickit, choisissez l’icône Ouvrir des exemples de bloc-notes. Confirmez que vous voulez créer l’exemple de base de données.
L'éditeur de requêtes Amazon Redshift v2 crée l'exemple de base de données ainsi qu'un bloc-notes d'exemple nommé. tickit-sample-notebook Vous pouvez choisir Tout exécuter pour exécuter ce bloc-notes afin d’interroger les données de l’exemple de base de données.
Pour voir les détails des données TICKIT, consultez Exemple de base de données dans le Guide du développeur de base de données Amazon Redshift.
Étape 5 : Essayer des exemples de requêtes à l’aide de l’éditeur de requêtes
Pour configurer et utiliser Amazon Redshift Query Editor v2 afin d’interroger une base de données, consultez Utilisation de l’éditeur de requêtes v2 dans le Guide de gestion Amazon Redshift.
Maintenant, essayez quelques exemples de requêtes, comme indiqué ci-dessous. Pour créer de nouvelles requêtes dans l’éditeur de requêtes v2, cliquez sur l’icône + dans le coin supérieur droit du volet des requêtes, puis sélectionnez SQL. Une nouvelle page de requête apparaît dans laquelle vous pouvez copier et coller les requêtes SQL suivantes.
Note
Veillez à exécuter d’abord la première requête dans le bloc-notes, qui définit la valeur de configuration du serveur search_path sur le schéma tickit à l’aide de la commande SQL suivante :
set search_path to tickit;
Pour plus d’informations sur l’utilisation de l’instruction SELECT, consultez SELECT dans le Guide du développeur de base de données Amazon Redshift.
-- Get definition for the sales table. SELECT * FROM pg_table_def WHERE tablename = 'sales';
-- Find total sales on a given calendar date. SELECT sum(qtysold) FROM sales, date WHERE sales.dateid = date.dateid AND caldate = '2008-01-05';
-- Find top 10 buyers by quantity. SELECT firstname, lastname, total_quantity FROM (SELECT buyerid, sum(qtysold) total_quantity FROM sales GROUP BY buyerid ORDER BY total_quantity desc limit 10) Q, users WHERE Q.buyerid = userid ORDER BY Q.total_quantity desc;
-- Find events in the 99.9 percentile in terms of all time gross sales. SELECT eventname, total_price FROM (SELECT eventid, total_price, ntile(1000) over(order by total_price desc) as percentile FROM (SELECT eventid, sum(pricepaid) total_price FROM sales GROUP BY eventid)) Q, event E WHERE Q.eventid = E.eventid AND percentile = 1 ORDER BY total_price desc;
Étape 6 : Réinitialiser votre environnement
Au cours des étapes précédentes, vous avez réussi à créer un cluster Amazon Redshift, à charger des données dans des tables et à interroger des données à l’aide d’un client SQL tel que Amazon Redshift Query Editor V2.
Lorsque vous avez terminé ce didacticiel, nous vous recommandons de réinitialiser votre environnement à l’état précédent en supprimant l’exemple de cluster. Vous continuez à payer des frais pour le service Amazon Redshift tant que vous n’avez pas supprimé le cluster.
Cependant, vous souhaiterez peut-être conserver l’exemple de cluster en cours d’exécution si vous avez l’intention de tester des tâches d’autres guides Amazon Redshift ou des tâches décrites dans Exécuter des commandes pour définir et utiliser une base de données dans votre entrepôt de données.
Pour supprimer un cluster
-
Connectez-vous à la console Amazon Redshift AWS Management Console et ouvrez-la à l'adresse. https://console.aws.amazon.com/redshiftv2/
-
Dans le menu de navigation, choisissez Clusters pour afficher la liste des clusters.
-
Choisissez le cluster
examplecluster. Pour Actions, choisissez Supprimer. La page Supprimer l’examplecluster ? s’affiche. -
Confirmez le cluster à supprimer, décochez le paramètre Créer un instantané final, puis entrez
deletepour confirmer la suppression. Choisissez Supprimer le cluster.
Sur la page de la liste des clusters, l’état du cluster est mis à jour afin de refléter la suppression du cluster.
Après avoir terminé ce didacticiel, vous pourrez trouver des informations supplémentaires sur Amazon Redshift et les étapes suivantes dans Ressources supplémentaires pour en savoir plus sur Amazon Redshift..