Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Löschen verwaister Dateien
AWS Glue Data Catalog ermöglicht es Ihnen, verwaiste Dateien aus Ihren Iceberg-Tabellen zu entfernen. Verwaiste Dateien sind nicht referenzierte Dateien, die in Ihrer Amazon-S3-Datenquelle unter dem angegebenen Tabellenort vorhanden sind, nicht von den Iceberg-Tabellenmetadaten verfolgt werden und älter als die von Ihnen konfigurierte Altersgrenze sind. Diese verwaisten Dateien können sich im Laufe der Zeit aufgrund von Fehlern bei Vorgängen wie Komprimierung, Partitionslöschungen oder Tabellenumschreibungen ansammeln und unnötigen Speicherplatz beanspruchen.
Der Optimierer für das Löschen verwaister Dateien AWS Glue scannt die Tabellenmetadaten und die eigentlichen Datendateien, identifiziert die verwaisten Dateien und löscht sie, um Speicherplatz freizugeben. Der Optimierer entfernt nur Dateien, die nach dem Erstellungsdatum des Optimierers erstellt wurden und auch die konfigurierten Löschkriterien erfüllen. Dateien, die vor oder am Erstellungsdatum des Optimierers erstellt wurden, werden niemals gelöscht.
Logik zum Löschen verwaister Dateien
Datumsprüfung – vergleicht das Erstellungsdatum der Datei mit dem Erstellungsdatum des Optimierers. Wenn die Datei mindestens so alt ist wie der Optimierer, wird die Datei übersprungen.
Konfigurationsprüfung des Optimierers – wenn die Datei neuer als der Optimierers ist, wird die Datei anhand der konfigurierten Altersbeschränkung bewertet. Der Optimierer löscht die Datei, wenn sie den Löschkriterien entspricht. Die Datei wird übersprungen, wenn sie den Kriterien nicht entspricht.
Sie können das Löschen verwaister Dateien initiieren, indem Sie im Datenkatalog einen Tabellenoptimierer für das Löschen verwaister Dateien erstellen.
Wichtig
Standardmäßig werden beim Löschen verwaister Dateien Dateien an Ihrem gesamten Speicherort in der Tabelle ausgewertet. AWS Glue Sie können zwar mithilfe eines API-Parameters ein Unterpräfix konfigurieren, um den Umfang der Auswertung einzuschränken, müssen jedoch sicherstellen, dass Ihr Tabellenspeicherort keine Dateien aus anderen Datenquellen oder Tabellen enthält. Wenn sich Ihr Tabellenspeicherort mit anderen Datenquellen überschneidet, identifiziert und löscht der Dienst möglicherweise nicht zugehörige Dateien als verwaiste Dateien.