Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
FlagDuplicateRows classe
La trasformazione FlagDuplicateRows restituisce una nuova colonna che contiene un valore specificato in ogni riga che indica se la stessa corrisponde esattamente a una riga precedente nel set di dati. Quando vengono trovate corrispondenze, i valori vengono contrassegnati come duplicati. L'occorrenza iniziale non viene contrassegnata poiché non corrisponde a una riga precedente.
Esempio
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise
Output
L'output sarà PySpark DataFrame con una colonna aggiuntiva flag_row che indica se una riga è duplicata o meno, in base alla source_column_1 colonna. Il `df_output` DataFrame risultante conterrà le seguenti righe:
``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```
La colonna flag_row indica se una riga è duplicata o meno. Il valore di `true_string` è impostato su “True” e quello di `false_string` su “False”. Il `target_index` è impostato su 1, il che significa che la flag_row colonna verrà inserita nella seconda posizione (indice 1) nell'output. DataFrame
Metodi
__call__(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)
La trasformazione FlagDuplicateRows restituisce una nuova colonna che contiene un valore specificato in ogni riga che indica se la stessa corrisponde esattamente a una riga precedente nel set di dati. Quando vengono trovate corrispondenze, i valori vengono contrassegnati come duplicati. L'occorrenza iniziale non viene contrassegnata poiché non corrisponde a una riga precedente.
-
true_string: valore da inserire se la riga corrisponde a una riga precedente. -
false_string: valore da inserire se la riga è univoca. -
target_column: nome della nuova colonna inserita nel set di dati.
apply(cls, *args, **kwargs)
Ereditato da GlueTransform apply.
name(cls)
Ereditato da GlueTransform name.
describeArgs(cls)
Ereditato da GlueTransform describeArgs.
describeReturn(cls)
Ereditato da GlueTransform describeReturn.
describeTransform(cls)
Ereditato da GlueTransform describeTransform.
describeErrors(cls)
Ereditato da GlueTransform describeErrors.
describe(cls)
Ereditato da GlueTransform describe.