

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Mögliche Formate für Eingaben und Ausgaben in AWS Glue für Spark
<a name="aws-glue-programming-etl-format"></a>

Diese Seiten bieten Informationen zur Feature-Unterstützung und Konfigurationsparameter für Datenformate, die von AWS Glue für Spark unterstützt werden. Im Folgenden finden Sie eine Beschreibung der Verwendung und Anwendbarkeit dieser Informationen. 

## Funktionsunterstützung für alle Datenformate in AWS Glue
<a name="aws-glue-programming-etl-format-features"></a>

 Jedes Datenformat kann unterschiedliche AWS Glue-Funktionen unterstützen. Die folgenden allgemeinen Features werden je nach Formattyp möglicherweise nicht unterstützt. Informieren Sie sich in der Dokumentation für Ihr Datenformat, um zu verstehen, wie Sie unsere Features zur Erfüllung Ihrer Anforderungen nutzen können. 


|  |  | 
| --- |--- |
| Lesen | AWS Glue kann dieses Datenformat ohne zusätzliche Ressourcen wie Konnektoren erkennen und interpretieren. | 
| Schreiben | AWS Glue kann Daten in diesem Format ohne zusätzliche Ressourcen schreiben. Sie können Bibliotheken von Drittanbietern in Ihren Job einbeziehen und Standardfunktionen von Apache Spark verwenden, um Daten wie in anderen Spark-Umgebungen zu schreiben. Weitere Informationen einschließlich Bibliotheken finden Sie unter [Python-Bibliotheken mit AWS Glue verwenden](aws-glue-programming-python-libraries.md). | 
| Streaming gelesen | AWS Glue kann dieses Datenformat aus einem Apache Kafka-, Amazon Managed Streaming for Apache Kafka- oder Amazon Kinesis Kinesis-Nachrichtenstream erkennen und interpretieren. Wir erwarten, dass Streams Daten in einem konsistenten Format präsentieren, sodass sie als DataFrames eingelesen werden. | 
| Gruppieren von kleinen Dateien | AWS Glue kann Dateien gruppieren, um Batch-Arbeit zu erstellen, die bei der Durchführung von AWS Glue-Transformationen an jeden Knoten gesendet wird. Dies kann die Leistung für Workloads mit großen Mengen kleiner Dateien erheblich verbessern. Weitere Informationen finden Sie unter [Zusammenfassen von Eingabedateien in größeren Gruppen beim Lesen](grouping-input-files.md).  | 
| Auftrags-Lesezeichen | AWS Glue kann mithilfe von Job-Lesezeichen den Fortschritt von Transformationen verfolgen, die dieselbe Arbeit an demselben Datensatz über Jobläufe hinweg ausführen. Dies kann die Leistung für Workloads mit Datensätzen verbessern, bei denen seit der letzten Auftragsausführung nur an neuen Daten gearbeitet werden muss. Weitere Informationen finden Sie unter [Verfolgen von verarbeiteten Daten mit Auftragslesezeichen](monitor-continuations.md). | 

## Parameter, die für die Interaktion mit Datenformaten in AWS Glue verwendet werden
<a name="aws-glue-programming-etl-format-parameters"></a>

Bestimmte AWS Glue-Verbindungstypen unterstützen mehrere `format` Typen, sodass Sie Informationen über Ihr Datenformat mit einem `format_options` Objekt angeben müssen, wenn Sie Methoden wie verwenden`GlueContext.write_dynamic_frame.from_options`.
+ `s3`— Weitere Informationen finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue:[S3-Verbindungsparameter](aws-glue-programming-etl-connect-s3-home.md#aws-glue-programming-etl-connect-s3). Sie können auch die Dokumentation für die Methoden anzeigen, die diesen Verbindungstyp unterstützt: [create\$1dynamic\$1frame\$1from\$1options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-create_dynamic_frame_from_options) und [write\$1dynamic\$1frame\$1from\$1options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-write_dynamic_frame_from_options) in Python sowie die entsprechende Scala-Methoden [def-Format getSourceWith](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-getSourceWithFormat) und [def-Format getSinkWith](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-getSinkWithFormat). 

  
+ `kinesis`— Weitere Informationen finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue:[Kinesis-Verbindungsparameter](aws-glue-programming-etl-connect-kinesis-home.md#aws-glue-programming-etl-connect-kinesis). Sie können auch die Dokumentation für die Methode anzeigen, die diesen Verbindungstyp unterstützt: [create\$1data\$1frame\$1from\$1options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-create-dataframe-from-options) und die entsprechende Scala-Methode [def createDataFrame FromOptions](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-createDataFrameFromOptions).
+ `kafka`— Weitere Informationen finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue:[Kafka-Verbindungsparameter](aws-glue-programming-etl-connect-kafka-home.md#aws-glue-programming-etl-connect-kafka). Sie können auch die Dokumentation für die Methode anzeigen, die diesen Verbindungstyp unterstützt: [create\$1data\$1frame\$1from\$1options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-create-dataframe-from-options) und die entsprechende Scala-Methode [def createDataFrame FromOptions](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-createDataFrameFromOptions).

Einige Verbindungstypen erfordern `format_options` nicht. Im Verlauf der normalen Verwendung ruft eine JDBC-Verbindung zu einer relationalen Datenbank zum Beispiel Daten in einem konsistenten, tabellarischen Datenformat ab. Daher wäre für das Lesen von einer JDBC-Verbindung `format_options` nicht erforderlich.

Für einige Methoden zum Lesen und Schreiben von Daten in Glue ist `format_options` nicht erforderlich. Zum Beispiel `GlueContext.create_dynamic_frame.from_catalog` mit AWS Glue-Crawlern. Crawler bestimmen die Form Ihrer Daten. Wenn Sie Crawler verwenden, untersucht ein AWS Glue-Klassifikator Ihre Daten, um kluge Entscheidungen darüber zu treffen, wie Ihr Datenformat dargestellt werden soll. Anschließend wird eine Darstellung Ihrer Daten im Glue-Datenkatalog gespeichert, die in einem AWS AWS Glue-ETL-Skript verwendet werden kann, um Ihre Daten mit der `GlueContext.create_dynamic_frame.from_catalog` Methode abzurufen. Crawler machen es überflüssig, Informationen über Ihr Datenformat manuell anzugeben.

AWS GlueUnterstützt für Jobs, die auf AWS Lake Formation gesteuerte Tabellen zugreifen, das Lesen und Schreiben aller Formate, die von Lake Formation verwalteten Tabellen unterstützt werden. Die aktuelle Liste der unterstützten Formate für gesteuerte AWS Lake Formation Tabellen finden Sie unter [Hinweise und Einschränkungen für verwaltete Tabellen](https://docs.aws.amazon.com/lake-formation/latest/dg/governed-table-restrictions.html) im *AWS Lake Formation Entwicklerhandbuch*.

**Anmerkung**  
Zum Schreiben von Apache Parquet unterstützt AWS Glue ETL das Schreiben in eine verwaltete Tabelle nur, indem eine Option für einen benutzerdefinierten Parquet-Schreibertyp angegeben wird, der für dynamische Frames optimiert ist. Beim Schreiben an eine verwaltete Tabelle mit dem `parquet`-Format sollten Sie den Schlüssel `useGlueParquetWriter` mit einem Wert von `true` den Tabellenparametern hinzufügen.

**Topics**
+ [Funktionsunterstützung für alle Datenformate in AWS Glue](#aws-glue-programming-etl-format-features)
+ [Parameter, die für die Interaktion mit Datenformaten in AWS Glue verwendet werden](#aws-glue-programming-etl-format-parameters)
+ [Verwenden des CSV-Formats in AWS Glue](aws-glue-programming-etl-format-csv-home.md)
+ [Das Parkett-Format in AWS Glue verwenden](aws-glue-programming-etl-format-parquet-home.md)
+ [Verwenden des XML-Formats in AWS Glue](aws-glue-programming-etl-format-xml-home.md)
+ [Verwenden des Avro-Formats in Glue AWS](aws-glue-programming-etl-format-avro-home.md)
+ [Verwenden des GrokLog-Formats in Glue AWS](aws-glue-programming-etl-format-grokLog-home.md)
+ [Das Ion-Format in AWS Glue verwenden](aws-glue-programming-etl-format-ion-home.md)
+ [Verwenden des JSON-Formats in AWS Glue](aws-glue-programming-etl-format-json-home.md)
+ [Verwenden des ORC-Formats in Glue AWS](aws-glue-programming-etl-format-orc-home.md)
+ [Verwendung von Data-Lake-Frameworks mit AWS Glue ETL-Jobs](aws-glue-programming-etl-datalake-native-frameworks.md)
+ [Freigegebene Konfigurationsreferenz](#aws-glue-programming-etl-format-shared-reference)

## Freigegebene Konfigurationsreferenz
<a name="aws-glue-programming-etl-format-shared-reference"></a>

 Sie können die folgenden `format_options`-Werte mit jedem Formattyp verwenden. 
+ `attachFilename` – Eine Zeichenfolge im entsprechenden Format, die als Spaltenname verwendet werden soll. Wenn Sie diese Option angeben, wird der Name der Quelldatei für den Datensatz an den Datensatz angefügt. Der Parameterwert wird als Spaltenname verwendet.
+ `attachTimestamp` – Eine Zeichenfolge im entsprechenden Format, die als Spaltenname verwendet werden soll. Wenn Sie diese Option angeben, wird die Änderungszeit der Quelldatei für den Datensatz an den Datensatz angefügt. Der Parameterwert wird als Spaltenname verwendet.