COPY aus spaltenbasierten Datenformaten - Amazon Redshift

Amazon Redshift wird UDFs ab dem 1. November 2025 die Erstellung von neuem Python nicht mehr unterstützen. Wenn Sie Python verwenden möchten UDFs, erstellen Sie das UDFs vor diesem Datum liegende. Bestehendes Python UDFs wird weiterhin wie gewohnt funktionieren. Weitere Informationen finden Sie im Blog-Posting.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

COPY aus spaltenbasierten Datenformaten

COPY kann Daten aus Amazon S3 in folgenden spaltenbasierten Formaten laden:

  • ORC

  • Parquet

Beispiele für die Verwendung von COPY aus spaltenbasierten Datenformaten finden Sie unter Beispiele für COPY.

COPY unterstützt Daten im Spaltenformat unter Berücksichtigung der folgenden Überlegungen:

  • Der Amazon S3 S3-Bucket muss sich in derselben AWS Region wie die Amazon Redshift Redshift-Datenbank befinden.

  • Um über einen VPC-Endpunkt auf Ihre Amazon-S3-Daten zugreifen zu können, richten Sie den Zugriff mithilfe von IAM-Richtlinien und IAM-Rollen ein, wie unter Verwendung von Amazon Redshift Spectrum mit Enhanced VPC-Routing im Amazon-Redshift-Verwaltungshandbuch beschrieben.

  • COPY wendet Kompressionskodierungen nicht automatisch an.

  • Es werden nur die folgenden COPY-Parameter unterstützt:

  • Tritt beim Laden ein Fehler auf, schlägt der COPY-Befehl fehl. ACCEPTANYDATE und MAXERROR werden für spaltenbasierte Datentypen nicht unterstützt.

  • Fehlermeldungen werden an den SQL-Client gesendet. Einige Fehler werden in STL_LOAD_ERRORS und STL_ERROR protokolliert.

  • COPY fügt Werte in derselben Reihenfolge in die Spalten der Zieltabelle ein, in der die Spalten in den spaltenbasierten Datendateien vorkommen. Die Anzahl der Spalten in der Zieltabelle und die Anzahl der Spalten in der Datendatei müssen übereinstimmen.

  • Wenn die Datei, die Sie für die COPY-Operation angeben, eine der folgenden Erweiterungen besitzt, werden die Daten dekomprimiert, ohne dass Parameter hinzugefügt werden müssen:

    • .gz

    • .snappy

    • .bz2

  • COPY aus den Dateiformaten Parquet und ORC verwendet Redshift Spectrum und den Bucket-Zugriff. Um COPY für diese Formate zu verwenden, stellen Sie sicher, dass es keine IAM-Richtlinien gibt, die die Verwendung von Amazon S3 URLs vorsigniert blockieren. Die von Amazon Redshift URLs generierten vorsignierten Dateien sind 1 Stunde gültig, sodass Amazon Redshift genügend Zeit hat, um alle Dateien aus dem Amazon S3 S3-Bucket zu laden. Für jede von COPY gescannte Datei aus spaltenbasierten Datenformaten wird eine eindeutige vorsignierte URL generiert. Sie müssen bei Bucket-Richtlinien, die die Aktion s3:signatureAge enthalten, den Wert auf mindestens 3.600.000 Millisekunden festlegen. Weitere Informationen finden Sie unter Verwenden von Amazon Redshift Spectrum mit Enhanced VPC Routing.

  • Der Parameter REGION wird bei COPY aus spaltenbasierten Datenformaten nicht unterstützt. Selbst wenn sich Ihr Amazon S3 S3-Bucket und Ihre Datenbank im selben Ordner befindenAWS-Region, kann es zu einem Fehler kommen, z. B. dass das Argument REGION für das PARQUET-basierte COPY nicht unterstützt wird.

  • COPY aus Spaltenformaten unterstützt jetzt die Parallelitätsskalierung. Informationen zur Aktivierung der Parallelitätsskalierung finden Sie unter Konfigurieren von Warteschlangen mit Parallelitätsskalierung.