Amazon Redshift wird UDFs ab dem 1. November 2025 die Erstellung von neuem Python nicht mehr unterstützen. Wenn Sie Python verwenden möchten UDFs, erstellen Sie das UDFs vor diesem Datum liegende. Bestehendes Python UDFs wird weiterhin wie gewohnt funktionieren. Weitere Informationen finden Sie im Blog-Posting
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erste Schritte mit von Amazon Redshift bereitgestellten Data Warehouses
Wenn Sie Amazon Redshift zum ersten Mal verwenden, empfehlen wir Ihnen, zunächst die folgenden Abschnitte zu lesen, die Ihnen bei den ersten Schritten mit der Verwendung bereitgestellter Cluster helfen. Der grundlegende Ablauf von Amazon Redshift besteht darin, bereitgestellte Ressourcen zu erstellen, eine Verbindung zu Amazon Redshift herzustellen, Beispieldaten zu laden und dann Abfragen für die Daten auszuführen. Bei Verwendung dieses Leitfadens haben Sie die Möglichkeit, Beispieldaten aus Amazon Redshift oder aus einem Amazon-S3-Bucket zu laden. Die Beispieldaten werden in der gesamten Amazon-Redshift-Dokumentation verwendet, um Features zu demonstrieren.
Dieses Tutorial zeigt, wie Sie von Amazon Redshift bereitgestellte Cluster verwenden, bei denen es sich um AWS Data Warehouse-Objekte handelt, für die Sie Systemressourcen verwalten. Sie können Amazon Redshift auch mit Serverless-Arbeitsgruppen verwenden. Dabei handelt es sich um Data Warehouse-Objekte, die je nach Nutzung automatisch skaliert werden. Zu den ersten Schritten mit Redshift Serverless vgl. Erste Schritte mit Data Warehouses von Amazon Redshift Serverless.
Nachdem Sie sich bei der von Amazon Redshift bereitgestellten Konsole angemeldet haben, können Sie alle Amazon-Redshift-Objekte erstellen und verwalten, einschließlich Cluster, Knoten und Datenbanken. Sie können auch Abfragen ausführen und anzeigen und mit einem SQL-Client andere SQL Data Definition Language (DDL)- und Data Manipulation Language (DML)-Operationen durchführen.
Wichtig
Der Cluster, den Sie für diese Übung bereitstellen, wird in einer Live-Umgebung ausgeführt. Solange es läuft, fallen Gebühren für Sie an. AWS-Konto Informationen zu Preisen finden Sie auf der Amazon-Redshift-Preisseite
Um unnötige Kosten zu vermeiden, sollten Sie den Cluster löschen, wenn Sie damit fertig sind. Der letzte Abschnitt dieses Kapitels erläutert, wie dies geht.
Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Amazon Redshift Redshift-Konsole unter https://console.aws.amazon.com/redshiftv2/
Wir empfehlen Ihnen, zunächst das Dashboard für bereitgestellte Cluster aufzurufen, um mit der Nutzung der Amazon-Redshift-Konsole zu beginnen.
Abhängig von Ihrer Konfiguration werden die folgenden Elemente im Navigationsbereich der von Amazon Redshift bereitgestellten Konsole angezeigt:
Redshift Serverless – Greifen Sie auf Daten zu und analysieren Sie sie, ohne dass Sie von Amazon Redshift bereitgestellte Cluster einrichten, optimieren und verwalten müssen.
Dashboard für bereitgestellte Cluster — Sehen Sie sich die Liste der Cluster in Ihrem AWS-Region an. Unter Cluster-Metriken und Abfrageübersicht finden Sie Einblicke in Metrikdaten (wie CPU-Auslastung) und Abfrageinformationen. Damit können Sie feststellen, ob Ihre Leistungsdaten über einen bestimmten Zeitraum anomal sind.
Cluster — Sehen Sie sich hier Ihre Clusterliste anAWS-Region, wählen Sie einen Cluster aus, um mit der Abfrage zu beginnen, oder führen Sie clusterbezogene Aktionen durch. Sie können von dieser Seite aus auch einen neuen Cluster erstellen.
Query editor – Führen Sie Abfragen für Datenbanken aus, die von Ihrem Amazon-Redshift-Cluster gehostet werden. Wir empfehlen stattdessen die Verwendung von Query Editor v2.
Query Editor v2 – Amazon Redshift Query Editor v2 ist eine separate webbasierte SQL-Clientanwendung, mit der Sie Abfragen für Ihr Data Warehouse von Amazon Redshift erstellen und ausführen können. Sie können Ihre Ergebnisse in Diagrammen darstellen und Abfragen mit anderen im Team teilen.
Queries and loads (Abfragen und Ladevorgänge) – Rufen Sie Informationen als Referenz oder zur Fehlerbehebung auf, z. B. eine Liste der letzten Abfragen und den SQL-Text für jede Abfrage.
Datashares – Als Administratoren eines Produzentenkontos können Sie entweder Konsumentenkonten zum Zugreifen auf Datashares autorisieren oder keinen Zugriff autorisieren. Um eine autorisierte Datenfreigabe zu verwenden, kann ein Administrator eines Benutzerkontos die Datenfreigabe entweder einem ganzen AWS-Konto oder bestimmten Cluster-Namespaces in einem Konto zuordnen. Ein Administrator kann eine Datenfreigabe auch ablehnen.
Null-ETL-Integrationen – Verwalten Sie Integrationen, die Transaktionsdaten in Amazon Redshift verfügbar machen, nachdem sie in unterstützte Quellen geschrieben wurden.
IAM Identity Center-Verbindungen – Konfigurieren Sie die Verbindung zwischen Amazon Redshift und IAM Identity Center.
Configurations (Konfigurationen) – Stellen Sie über Java-Database-Connectivity(JDBC)- und Open-Database-Connectivity(ODBC)-Verbindungen eine Verbindung von SQL-Client-Tools zu Amazon-Redshift-Clustern her. Sie können auch einen von Amazon Redshift verwalteten Virtual Private Cloud (VPC)-Endpunkt einrichten. Dadurch wird eine private Verbindung hergestellt zwischen einer VPC, die auf dem Amazon-VPC-Service basiert, der einen Cluster enthält, und einer anderen VPC, in der ein Client-Tool ausgeführt wird.
AWSPartnerintegration — Erstellen Sie eine Integration mit einem unterstützten AWS Partner.
Advisor – Erhalten Sie spezifische Empfehlungen zu Änderungen, die Sie an Ihrem Amazon-Redshift-Cluster vornehmen können, um Ihre Optimierungen zu priorisieren.
AWSMarketplace — Informieren Sie sich über andere Tools oder AWS Services, die mit Amazon Redshift funktionieren.
Alarms (Alarme) – Erstellen Sie Alarme für Cluster-Metriken, um Leistungsdaten anzuzeigen und Metriken über einen von Ihnen festgelegten Zeitraum nachzuverfolgen.
Events (Ereignisse) – Verfolgen Sie Ereignisse nach und rufen Sie Berichte mit Informationen wie dem Datum des Ereignisses, einer Beschreibung oder der Ereignisquelle ab.
What's new (Neuerungen) – Zeigen Sie neue Funktionen und Produktaktualisierungen von Amazon Redshift an.
In diesem Tutorial führen Sie die folgenden Schritte durch:
Themen
Melden Sie sich an für AWS
Wenn Sie noch keine habenAWS-Konto, melden Sie sich für eine an. Wenn Sie bereits ein Konto besitzen, können Sie diesen Schritt überspringen und Ihr vorhandenes Konto verwenden.
Folgen Sie den Online-Anweisungen.
Während der Anmeldung erhalten Sie einen Telefonanruf oder eine Textnachricht und müssen einen Verifizierungscode über die Telefontasten eingeben.
Wenn Sie sich für eine anmeldenAWS-Konto, Root-Benutzer des AWS-Kontoswird eine erstellt. Der Root-Benutzer hat Zugriff auf alle AWS-Services und Ressourcen des Kontos. Als bewährte Sicherheitsmethode weisen Sie einem Benutzer Administratorzugriff zu und verwenden Sie nur den Root-Benutzer, um Aufgaben auszuführen, die Root-Benutzerzugriff erfordern.
Festlegen von Firewall-Regeln
Anmerkung
In diesem Tutorial wird davon ausgegangen, dass Ihr Cluster den Standardport 5439 verwendet und Amazon Redshift Query Editor v2 zur Ausführung von SQL-Befehlen verwendet werden kann. Es geht nicht auf Details zu Netzwerkkonfigurationen oder zur Einrichtung eines SQL-Clients ein, die in Ihrer Umgebung erforderlich sein könnten.
In manchen Umgebungen geben Sie einen Port für den Start des Amazon-Redshift-Clusters an. Sie verwenden diesen Port zusammen mit der Endpunkt-URL des Clusters, um auf den Cluster zuzugreifen. Des Weiteren erstellen Sie eine Zugangsregel für eingehenden Datenverkehr in einer Sicherheitsgruppe, die den Zugriff auf den Cluster über den Port regelt.
Wenn der Client-Computer durch eine Firewall geschützt ist, müssen Sie wissen, welcher Port offen ist. Über diesen offenen Port können Sie von einem SQL-Client-Tool eine Verbindung zum Cluster herstellen und Abfragen ausführen. Sollten Sie keinen offenen Port kennen, bitten Sie jemanden, der sich mit den Firewall-Regeln in Ihrem Netzwerk auskennt, einen offenen Port in der Firewall zu ermitteln.
Standardmäßig verwendet Amazon Redshift Port 5439. Eine Verbindung ist aber nur möglich, wenn dieser Port in der Firewall auch geöffnet ist. Sie können die Portnummer für den Amazon-Redshift-Cluster nach der Erstellung nicht mehr ändern. Stellen Sie daher sicher, dass Sie einen offenen Port angeben, der in Ihrer Umgebung beim Startvorgang funktioniert.
Schritt 1: Erstellen eines Amazon-Redshift-Beispielclusters
In diesem Tutorial führen Sie den Prozess zum Erstellen eines Amazon-Redshift-Clusters mit einer Datenbank durch. Anschließend laden Sie einen Datensatz von Amazon S3 in Tabellen in Ihrer Datenbank. Anhand dieses Beispiel-Clusters können Sie den Dienst Amazon Redshift auswerten.
Vergewissern Sie sich vor der Einrichtung eines Amazon-Redshift-Clusters, dass Sie die erforderlichen Voraussetzungen durchgeführt haben, wie etwa Melden Sie sich an für AWS und Festlegen von Firewall-Regeln.
Für jeden Vorgang, der auf Daten von einer anderen AWS Ressource zugreift, benötigt Ihr Cluster die Erlaubnis, in Ihrem Namen auf die Ressource und die Daten auf der Ressource zuzugreifen. Ein Beispiel ist die Ausführung des SQL-Befehls COPY zum Laden von Daten aus Amazon Simple Storage Service (Amazon S3). Sie stellen diese Berechtigungen mithilfe von AWS Identity and Access Management (IAM) bereit. Sie können dies über eine IAM-Rolle tun, die Sie erstellen und die mit Ihrem Cluster verbunden ist. Weitere Informationen zu Anmeldeinformationen und Zugriffsberechtigungen finden Sie unter Anmeldeinformationen und Zugriffsberechtigungen im Datenbankentwicklerhandbuch zu Amazon Redshift.
So erstellen Sie einen Amazon-Redshift-Cluster
-
Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Amazon Redshift Redshift-Konsole unter https://console.aws.amazon.com/redshiftv2/
. Wichtig
Wenn Sie IAM-Benutzeranmeldeinformationen verwenden, stellen Sie sicher, dass Sie über die erforderlichen Berechtigungen verfügen, um die Cluster-Operationen durchzuführen. Weitere Informationen finden Sie unter Sicherheit in Amazon Redshift im Managementleitfaden zu Amazon-Redshift.
-
Wählen Sie auf der AWS Konsole den AWS-Region Ort aus, an dem Sie den Cluster erstellen möchten.
-
Wählen Sie im Navigationsmenü Clusters (Cluster) und dann Create cluster (Cluster erstellen) aus. Die Seite Create Cluster (Cluster erstellen) wird angezeigt.
-
Geben Sie im Bereich Cluster configuration (Cluster-Konfiguration) Werte für Cluster identifier (Cluster-ID), Node type (Knotentyp) und Nodes (Knoten) an:
-
Cluster Identifier (Cluster-ID): Geben Sie für dieses Tutorial
exampleclusterein. Diese ID muss eindeutig sein. Die ID muss aus 1—63 Zeichen bestehen und darf nur die Buchstaben a–z (nur Kleinschreibung) und - (Bindestriche) enthalten. -
Wählen Sie eine der folgenden Methoden zur Bestimmung der Größe Ihres Clusters aus:
Anmerkung
Im folgenden Schritt wird von einem System ausgegangenAWS-Region, das RA3 Knotentypen unterstützt. Eine Liste der AWS-Regionen unterstützten RA3 Knotentypen finden Sie unter Überblick über RA3 Knotentypen im Amazon Redshift Management Guide. Weitere Informationen über die Knotenspezifikationen für die einzelnen Knotentypen und -größen finden Sie unter Details zu Knotentypen.
-
Wenn Sie nicht wissen, wie groß Ihr Cluster sein sollte, wählen Sie Help me choose (Hilfe bei der Auswahl) aus. Dadurch wird ein Größenbestimmungsrechner geöffnet, der Ihnen Fragen zur Größe und zu Abfragemerkmalen der Daten stellt, die Sie in Ihrem Data Warehouse speichern möchten.
Wenn Sie die erforderliche Größe Ihres Clusters kennen (d. h. den Knotentyp und die Anzahl der Knoten), wählen Sie I'll choose (Ich entscheide) aus. Wählen Sie den Node type (Knotentyp) und die Anzahl der Nodes (Knoten) aus, um die Größe Ihres Clusters für den Machbarkeitsnachweis zu bestimmen.
Wählen Sie für dieses Tutorial ra3.4xlarge als Knotentyp und 2 als Anzahl der Knoten aus.
Wenn eine AZ-Konfiguration verfügbar ist, wählen Sie Single-AZ.
Wählen Sie unter Sample data (Beispieldaten) Load sample data (Beispieldaten laden) aus, um den Beispieldatensatz zu verwenden, den Amazon Redshift bereitstellt. Amazon Redshift lädt den Beispieldatensatz Tickit in die standardmäßige
dev-Datenbank und daspublic-Schema.
-
-
-
Geben Sie im Bereich Datenbankkonfiguration einen Wert für Administrator-Benutzername ein. Wählen Sie für Administratorpasswort eine der folgenden Optionen aus:
-
Ein Passwort erstellen – Verwendung eines von Amazon Redshift generierten Passworts.
-
Administratorpasswort manuell hinzufügen – Verwendung Ihres eigenen Passworts.
-
Administratoranmeldedaten verwalten in AWS Secrets Manager — Amazon Redshift verwendetAWS Secrets Manager, um Ihr Administratorkennwort zu generieren und zu verwalten. Für AWS Secrets Manager die Generierung und Verwaltung Ihres Passworts fällt eine Gebühr an. Informationen zu den Preisen für AWS Secrets Manager finden Sie unter AWS Secrets Manager – Preise
.
Verwenden Sie für dieses Tutorial folgende Werte:
Admin user name (Administratorbenutzername): Geben Sie
awsuserein.Administratorpasswort: Geben Sie für das Passwort
Changeit1ein.
-
-
Erstellen Sie für dieses Tutorial eine IAM-Rolle und legen Sie sie als Standard für Ihren Cluster fest, wie nachfolgend beschrieben. Für einen Cluster kann nur eine Standard-IAM-Rolle festgelegt werden.
Wählen Sie unter Cluster permissions (Cluster-Berechtigungen) bei Manage IAM roles (IAM-Rollen verwalten) die Option Create IAM role (IAM-Rolle erstellen) aus.
Geben Sie einen Amazon S3 Bucket an, auf den die IAM-Rolle zugreifen soll, indem Sie eine der folgenden Methoden verwenden:
Wählen Sie No additional Amazon S3 bucket (Kein zusätzlicher Amazon S3 Bucket) aus, damit die erstellte IAM-Rolle nur auf die Amazon S3 Buckets zugreifen kann, die als
redshiftbenannt sind.Wählen Sie Any Amazon S3 bucket (Beliebiger Amazon S3 Bucket) aus, damit die erstellte IAM-Rolle auf alle Amazon S3 Buckets zugreifen kann.
Wählen Sie Specific Amazon S3 buckets (Bestimmte Amazon S3 Buckets) aus, um einen oder mehrere Amazon S3 Buckets anzugeben, auf die die erstellte IAM-Rolle Zugriff hat. Wählen Sie dann einen oder mehrere Amazon S3 Buckets aus der Tabelle aus.
Wählen Sie Create IAM role as default (IAM-Rolle als Standard erstellen) aus. Amazon Redshift erstellt automatisch die Rolle und legt sie als Standard für Ihren Cluster fest.
Da Sie Ihre IAM-Rolle von der Konsole aus erstellt haben, ist ihr die Richtlinie
AmazonRedshiftAllCommandsFullAccessangefügt. Dadurch kann Amazon Redshift Daten von Amazon-Ressourcen in Ihrem IAM-Konto kopieren, laden, abfragen und analysieren.
Informationen zum Verwalten der Standard-IAM-Rolle für einen Cluster finden Sie unter Erstellen einer IAM-Rolle als Standard für Amazon Redshift im Managementleitfaden zu Amazon Redshift.
-
(Optional) Deaktivieren Sie im Bereich Zusätzliche Konfigurationen die Option Standardwerte verwenden, um die Einstellungen Netzwerk und Sicherheit, Datenbankkonfiguration, Wartung, Überwachung und Backup anzupassen.
In manchen Fällen können Sie Ihren Cluster mit der Option Load sample data (Beispieldaten laden) erstellen. Dabei empfiehlt es sich möglicherweise, erweitertes Amazon-VPC-Routing zu aktivieren. In diesem Fall benötigt der Cluster in Ihrer Virtual Private Cloud (VPC) Zugriff auf den Amazon-S3-Endpunkt, damit Daten geladen werden können.
Um den Cluster öffentlich zugänglich zu machen, haben Sie zwei Möglichkeiten. Sie können eine NAT-Adresse (Network Address Translation) in Ihrer VPC konfigurieren, damit der Cluster auf das Internet zugreifen kann. Oder Sie können einen Amazon-S3-VPC-Endpunkt in Ihrer VPC konfigurieren. Weitere Informationen zu erweitertem Amazon-VPC-Routing finden Sie unter Aktivieren von erweitertem Amazon-VPC-Routing im Managementleitfaden zu Amazon Redshift.
-
Wählen Sie Cluster erstellen. Warten Sie, bis Ihr Cluster mit dem Status
Availableauf der Seite Cluster erstellt wurde.
Schritt 2: Regeln für eingehenden Datenverkehr für SQL-Clients konfigurieren
Anmerkung
Wir empfehlen Ihnen, diesen Schritt zu überspringen und mit Amazon Redshift Query Editor v2 auf Ihren Cluster zuzugreifen.
Im weiteren Verlauf dieses Tutorials greifen Sie aus einer Virtual Private Cloud (VPC) auf Grundlage des Amazon-VPC-Service heraus auf Ihren Cluster zu. Wenn Sie einen SQL-Client von außerhalb Ihrer Firewall für den Zugriff auf den Cluster verwenden, müssen Sie jedoch den eingehenden Zugriff gewähren.
So überprüfen Sie Ihre Firewall und gewähren eingehenden Zugriff auf Ihren Cluster:
Überprüfen Sie Ihre Firewall-Regeln, wenn auf Ihren Cluster von außerhalb einer Firewall zugegriffen werden muss. Ihr Client könnte beispielsweise eine Amazon Elastic Compute Cloud (Amazon EC2) -Instance oder ein externer Computer sein.
Weitere Informationen zu Firewallregeln finden Sie unter Sicherheitsgruppenregeln im EC2 Amazon-Benutzerhandbuch.
Um von einem EC2 externen Amazon-Client aus zuzugreifen, fügen Sie der mit Ihrem Cluster verbundenen Sicherheitsgruppe, die eingehenden Datenverkehr zulässt, eine Eingangsregel hinzu. Sie fügen EC2 Amazon-Sicherheitsgruppenregeln in der EC2 Amazon-Konsole hinzu. Ein Wert CIDR/IP von 192.0.2.0/24 ermöglicht es beispielsweise Clients in diesem IP-Adressbereich, eine Verbindung zu Ihrem Cluster herzustellen. Finden Sie heraus, was für Ihre Umgebung richtig CIDR/IP ist.
Schritt 3: Gewähren von Zugriff auf einen SQL-Client und Ausführen von Abfragen
Für die Abfrage von Ihrem Amazon-Redshift-Cluster gehosteter Datenbanken gibt es verschiedene Möglichkeiten für SQL-Clients. Dazu zählen:
Verbinden Sie sich mit Ihrem Cluster und führen Sie Abfragen mit Amazon Redshift Query Editor v2 durch.
Wenn Sie Query Editor v2 verwenden, müssen Sie keine SQL-Clientanwendung herunterladen und einrichten. Sie starten Amazon Redshift Query Editor v2 über die Amazon-Redshift-Konsole.
Herstellen einer Verbindung zu Ihrem Cluster mit RSQL. Weitere Informationen finden Sie unter Verbindung mit Amazon Redshift RSQL im Managementleitfaden zu Amazon Redshift.
-
Stellen Sie über ein SQL-Client-Tool wie SQL Workbench/J eine Verbindung zu Ihrem Cluster her. Weitere Informationen finden Sie unter Herstellen einer Verbindung mit Ihrem Cluster unter Verwendung von SQL Workbench/J im Managementleitfaden zu Amazon Redshift.
Dieses Tutorial verwendet Amazon Redshift Query Editor v2 als einfachen Weg, Abfragen für Datenbanken auszuführen, die von Ihrem Amazon-Redshift-Cluster gehostet werden. Nachdem Sie Ihren Cluster erstellt haben, können Sie sofort Abfragen ausführen. Details zu Überlegungen bei der Verwendung von Amazon Redshift Query Editor v2 finden Sie unter Überlegungen zur Arbeit mit Query Editor v2 im Managementleitfaden zu Amazon Redshift.
Gewähren des Zugriffs auf Abfrage-Editor v2
Wenn ein Administrator den Query Editor v2 zum ersten Mal für Sie konfiguriert, wählt er den aus AWS-KontoAWS KMS key, der zum Verschlüsseln der Query Editor v2-Ressourcen verwendet wird. Zu den Ressourcen von Amazon Redshift Query Editor v2 gehören gespeicherte Abfragen, Notizbücher und Diagramme. Standardmäßig werden die Ressourcen mit einem AWS-eignen Schlüssel verschlüsselt. Alternativ dazu kann ein Administrator einen kundenseitig verwalteten Schlüssel verwenden, indem er den Amazon-Ressourcennamen (ARN) als Schlüssel auf der Konfigurationsseite auswählt. Nachdem Sie ein Konto konfiguriert haben, können die AWS KMS Verschlüsselungseinstellungen nicht mehr geändert werden. Weitere Informationen finden Sie unter Konfigurieren Ihres AWS-Konto im Managementleitfaden zu Amazon Redshift.
Um den Abfrage-Editor v2 aufzurufen, benötigen Sie eine Berechtigung. Ein Administrator kann eine der von AWS verwalteten Richtlinien für Amazon Redshift Query Editor v2 der IAM-Rolle oder dem Benutzer anfügen, um Berechtigungen zu gewähren. Diese AWS verwalteten Richtlinien verfügen über verschiedene Optionen, mit denen gesteuert wird, wie das Markieren von Ressourcen die gemeinsame Nutzung von Abfragen ermöglicht. Sie können die IAM-Konsole (https://console.aws.amazon.com/iam/
Sie können auch Ihre eigene Richtlinie erstellen, basierend auf den zulässigen und verweigerten Berechtigungen in den bereitgestellten verwalteten Richtlinien. Wenn Sie den IAM-Konsolenrichtlinien-Editor verwenden, um Ihre eigene Richtlinie zu erstellen, wählen Sie SQL Workbench als Service aus, für den Sie die Richtlinie im visuellen Editor erstellen. Der Abfrage-Editor v2 verwendet den Dienstnamen AWS SQL Workbench im Visual Editor und im IAM Policy Simulator.
Weitere Informationen finden Sie unter Arbeiten mit dem Abfrage-Editor v2 im Amazon-Redshift-Verwaltungshandbuch.
Schritt 4: Daten aus Amazon S3 in Amazon Redshift laden
Nachdem Sie Ihren Cluster erstellt haben, können Sie Daten aus Amazon S3 in Ihre Datenbanktabellen laden. Es gibt mehrere Möglichkeiten, Daten aus Amazon S3 zu laden.
Sie können einen SQL-Client verwenden, um den SQL-Befehl CREATE TABLE auszuführen, um eine Tabelle in Ihrer Datenbank zu erstellen, und dann den Befehl SQL COPY, um Daten aus Amazon S3 zu laden. Amazon Redshift Query Editor v2 ist ein SQL-Client.
Sie können den Ladeassistenten von Amazon Redshift Query Editor v2 verwenden.
Dieses Tutorial zeigt, wie Sie Amazon Redshift Query Editor v2 verwenden, um SQL-Befehle auszuführen, um Tabellen zu erstellen (CREATE) und Daten zu kopieren (COPY). Starten Sie Query Editor v2 über den Navigationsbereich der Amazon-Redshift-Konsole. Stellen Sie in Query Editor v2 eine Verbindung zum examplecluster-Cluster und zur Datenbank mit dem Namen dev mit Ihrem Admin-Benutzer awsuser her. Wählen Sie für dieses Tutorial Temporäre Anmeldeinformationen mit einem Datenbankbenutzernamen, wenn Sie die Verbindung herstellen. Details zur Verwendung von Amazon Redshift Query Editor v2 finden Sie unter Herstellen einer Verbindung mit einer Amazon-Redshift-Datenbank im Managementleitfaden zu Amazon Redshift.
Laden von Daten aus Amazon S3 mit SQL-Befehlen
Vergewissern Sie sich im Fenster von Query Editor v2, dass Sie mit dem examplecluster-Cluster und der dev-Datenbank verbunden sind. Erstellen Sie dann Tabellen in der Datenbank und laden Daten in die Tabellen. In diesem Tutorial sind die Daten, die Sie laden, in einem Amazon S3 S3-Bucket verfügbar, auf den von vielen aus zugegriffen werden kannAWS-Regionen.
Mit dem folgenden Verfahren werden Tabellen erstellt und Daten aus einem öffentlichen Amazon-S3-Bucket geladen.
Verwenden Sie Amazon Redshift Query Editor v2 verwenden, um die folgende Anweisung zum Erstellen einer Tabelle im public-Schema der dev-Datenbank zu kopieren und auszuführen. Weitere Informationen zur Syntax finden Sie unter CREATE TABLE im Datenbankentwicklerhandbuch zu Amazon Redshift.
So erstellen und laden Sie Daten mit einem SQL-Client wie Query Editor v2:
-
Verwenden Sie den folgenden SQL-Befehl, um die
salesTabelle zu erstellen (CREATE).drop table if exists sales;create table sales( salesid integer not null, listid integer not null distkey, sellerid integer not null, buyerid integer not null, eventid integer not null, dateid smallint not null sortkey, qtysold smallint not null, pricepaid decimal(8,2), commission decimal(8,2), saletime timestamp); -
Verwenden Sie den folgenden SQL-Befehl, um die
dateTabelle zu erstellen (CREATE).drop table if exists date;create table date( dateid smallint not null distkey sortkey, caldate date not null, day character(3) not null, week smallint not null, month character(5) not null, qtr character(5) not null, year smallint not null, holiday boolean default('N')); -
Laden Sie die
sales-Tabelle mit dem COPY-Befehl aus Amazon S3.Anmerkung
Es wird empfohlen, zum Laden großer Datensätze in Amazon Redshift aus Amazon S3 den COPY-Befehl zu verwenden. Weitere Informationen zur COPY-Syntax finden Sie unter COPY im Datenbankentwicklerhandbuch zu Amazon Redshift.
Stellen Sie Authentifizierung für Ihren Cluster um Zugriff auf Amazon S3 in Ihrem Namen bereit, um die Beispieldaten zu laden. Sie stellen die Authentifizierung bereit, indem Sie auf die IAM-Rolle verweisen, die Sie erstellt und als
defaultfür Ihren Cluster mit der Auswahl von IAM-Rolle als Standard erstellen bei der Erstellung des Clusters festgelegt haben.Laden Sie die
sales-Tabelle mit dem folgenden SQL-Befehl. Optional können Sie die Quelldaten für diesales-Tabelleaus Amazon S3 herunterladen und anzeigen. . COPY sales FROM 's3://redshift-downloads/tickit/sales_tab.txt' DELIMITER '\t' TIMEFORMAT 'MM/DD/YYYY HH:MI:SS' REGION 'us-east-1' IAM_ROLE default; -
Laden Sie die
date-Tabelle mit dem folgenden SQL-Befehl. Optional können Sie die Quelldaten für diedate-Tabelleaus Amazon S3 herunterladen und anzeigen. . COPY date FROM 's3://redshift-downloads/tickit/date2008_pipe.txt' DELIMITER '|' REGION 'us-east-1' IAM_ROLE default;
Laden von Daten aus Amazon S3 mit Query Editor v2
In diesem Abschnitt wird beschrieben, wie Sie Ihre eigenen Daten in einen Amazon-Redshift-Cluster laden. Query Editor v2 vereinfacht das Laden von Daten mit dem Load data-Assistenten. Der COPY-Befehl, der im Load data-Assistenten von Query Editor v2 generiert und verwendet wird, unterstützt alle Parameter, die für die COPY-Befehlssyntax zum Laden von Daten aus Amazon S3 verfügbar sind. Weitere Informationen zum COPY-Befehl und zu seinen Optionen zum Kopieren und Laden aus Amazon S3 finden Sie unter COPY aus dem Amazon Simple Storage Service im Datenbankentwicklerhandbuch zu Amazon Redshift.
Um Ihre eigenen Daten aus Amazon S3 in Amazon Redshift zu laden, erfordert Amazon Redshift eine IAM-Rolle, die über die benötigten Berechtigungen zum Laden von Daten aus dem angegebenen Amazon S3 Bucket verfügt.
Zum Laden Ihrer Daten aus Amazon S3 in Amazon Redshift mit Query Editor v2 können Sie den Assistenten zum Laden von Daten von Query Editor v2 verwenden. Weitere Informationen zur Verwendung dieses Assistenten finden Sie unter Laden von Daten aus Amazon S3 im Managementleitfaden zu Amazon Redshift.
Erstellen von TICKIT-Daten in Ihrem Cluster
TICKIT ist eine Beispieldatenbank, die Sie optional in Ihren Amazon-Redshift-Cluster laden können, um zu lernen, wie Sie Daten in Amazon Redshift abfragen. Sie können den vollständigen Satz von TICKIT-Tabellen erstellen und Daten auf folgende Weise in Ihren Cluster laden:
Wenn Sie einen Cluster in der Amazon-Redshift-Konsole erstellen, haben Sie die Möglichkeit, gleichzeitig Beispieldaten für TICKIT zu laden. Wählen Sie in der Amazon-Redshift-Konsole Cluster, Cluster erstellen aus. Wählen Sie im Abschnitt Beispieldaten die Option Beispieldaten laden aus. Amazon Redshift lädt den Beispieldatensatz während der Clustererstellung automatisch in Ihre
devAmazon-Redshift-Clusterdatenbank.So stellen Sie eine Verbindung zu einem vorhandenen Cluster her:
Wählen Sie in der Amazon-Redshift-Konsole im Navigationsbereich Cluster aus.
Wählen Sie Ihren Cluster im Fenster Cluster aus.
Wählen Sie Daten abfragen, Abfrage in Query Editor v2 aus.
Erweitern Sie examplecluster in der Ressourcenliste. Wenn Sie zum ersten Mal eine Verbindung zu Ihrem Cluster herstellen, wird Verbindung zu examplecluster angezeigt. Wählen Sie Datenbank-Benutzername und Passwort. Belassen Sie die Datenbank als
dev. Geben Sieawsuserals Benutzernamen undChangeit1als Passwort an.Wählen Sie Create Connection (Verbindung erstellen) aus.
Mit Amazon Redshift Query Editor v2 können Sie TICKIT-Daten in eine Beispieldatenbank mit dem Namen sample_data_dev laden. Wählen Sie die Datenbank sample_data_dev in der Ressourcenliste aus. Wählen Sie neben dem Tickit-Knoten das Symbol Beispielnotizbücher öffnen aus. Bestätigen Sie, dass Sie die Beispieldatenbank erstellen möchten.
Der Amazon Redshift Query Editor v2 erstellt die Beispieldatenbank zusammen mit einem Beispielnotizbuch mit dem Namen tickit-sample-notebook. Sie können Alle ausführen wählen, um dieses Notizbuch auszuführen und Daten in der Beispieldatenbank abzufragen.
Weitere Informationen zu den TICKIT-Daten finden Sie unter Beispieldatenbank im Datenbankentwicklerhandbuch zu Amazon Redshift.
Schritt 5: Beispielabfragen mit dem Abfrage-Editor testen
Informationen zur Einrichtung und Verwendung von Amazon Redshift Query Editor v2 zur Abfrage von Datenbanken finden Sie unter Arbeiten mit Query Editor v2 im Managementleitfaden zu Amazon Redshift.
Testen Sie jetzt einige Beispielabfragen wie folgt. Um neue Abfragen in Query Editor v2 zu erstellen, wählen Sie das +-Symbol oben rechts im Abfragebereich und dann SQL. Eine neue Abfrageseite wird angezeigt, auf der Sie die folgenden SQL-Abfragen kopieren und einfügen können.
Anmerkung
Stellen Sie sicher, dass Sie zuerst die erste Abfrage im Notizbuch ausführen, wodurch der search_path-Serverkonfigurationswert mit dem folgenden SQL-Befehl auf das tickit-Schema festgelegt wird:
set search_path to tickit;
Weitere Informationen zur Verwendung des SELECT-Befehls finden Sie unter SELECT im Datenbankentwicklerhandbuch zu Amazon Redshift.
-- Get definition for the sales table. SELECT * FROM pg_table_def WHERE tablename = 'sales';
-- Find total sales on a given calendar date. SELECT sum(qtysold) FROM sales, date WHERE sales.dateid = date.dateid AND caldate = '2008-01-05';
-- Find top 10 buyers by quantity. SELECT firstname, lastname, total_quantity FROM (SELECT buyerid, sum(qtysold) total_quantity FROM sales GROUP BY buyerid ORDER BY total_quantity desc limit 10) Q, users WHERE Q.buyerid = userid ORDER BY Q.total_quantity desc;
-- Find events in the 99.9 percentile in terms of all time gross sales. SELECT eventname, total_price FROM (SELECT eventid, total_price, ntile(1000) over(order by total_price desc) as percentile FROM (SELECT eventid, sum(pricepaid) total_price FROM sales GROUP BY eventid)) Q, event E WHERE Q.eventid = E.eventid AND percentile = 1 ORDER BY total_price desc;
Schritt 6: Umgebung zurücksetzen
In den vorherigen Schritten haben Sie erfolgreich einen Amazon-Redshift-Cluster erstellt, Daten in Tabellen geladen und Daten mit einem SQL-Client wie Amazon Redshift Query Editor v2 abgefragt.
Wenn Sie dieses Tutorial abgeschlossen haben, empfehlen wir, dass Sie Ihre Umgebung auf den vorherigen Zustand zurücksetzen, indem Sie Ihren Beispielcluster löschen. Es fallen so lange Amazon-Redshift-Nutzungsgebühren, bis Sie den Cluster löschen.
Sie können den Beispielcluster jedoch aktiviert lassen, wenn Sie Aufgaben in anderen Amazon-Redshift-Leitfäden oder in Ausführen von Befehlen, um eine Datenbank in Ihrem Data Warehouse zu definieren und zu verwenden beschriebene Aufgaben ausprobieren möchten.
So löschen Sie einen Cluster
-
Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Amazon Redshift Redshift-Konsole unter https://console.aws.amazon.com/redshiftv2/
. -
Wählen Sie im Navigationsmenü Clusters (Cluster) aus, um Ihre Liste der Cluster anzuzeigen.
-
Wählen Sie den Cluster
exampleclusteraus. Klicken Sie bei Actions auf Delete. Die Seite Beispielcluster löschen? wird angezeigt. -
Bestätigen Sie, dass der Cluster gelöscht werden soll, deaktivieren Sie die Einstellung Endgültigen Snapshot erstellen und geben Sie dann
deleteein, um das Löschen zu bestätigen. Wählen Sie Delete cluster (Cluster löschen) aus.
Auf der Seite mit der Clusterliste wird der Clusterstatus aktualisiert, wenn der Cluster gelöscht wird.
Nach Abschluss dieses Tutorials finden Sie weitere Informationen über Amazon Redshift sowie die nächsten Schritte unter Weitere Ressourcen, um mehr über Amazon Redshift zu erfahren..