Esempio Output - metodi -__call__apply name describeArgs describeReturn describeTransform describeErrors describe

FlagDuplicateRows classe

La trasformazione FlagDuplicateRows restituisce una nuova colonna che contiene un valore specificato in ogni riga che indica se la stessa corrisponde esattamente a una riga precedente nel set di dati. Quando vengono trovate corrispondenze, i valori vengono contrassegnati come duplicati. L'occorrenza iniziale non viene contrassegnata poiché non corrisponde a una riga precedente.

Esempio


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.FlagDuplicateRows.apply(
        data_frame=input_df,
        spark_context=sc,
        target_column="flag_row",
        true_string="True",
        false_string="False",
        target_index=1
    )
except:
    print("Unexpected Error happened ")
    raise

Output

L'output sarà PySpark DataFrame con una colonna aggiuntiva flag_row che indica se una riga è duplicata o meno, in base alla source_column_1 colonna. Il `df_output` DataFrame risultante conterrà le seguenti righe:


```
+---------------+---------------+--------+
|source_column_1|source_column_2|flag_row|
+---------------+---------------+--------+
| 105.111| 13.12| False|
| 13.12| 13.12| True|
| null| 13.12| True|
| 13.12| 13.12| True|
| null| 13.12| True|
+---------------+---------------+--------+
```

La colonna flag_row indica se una riga è duplicata o meno. Il valore di `true_string` è impostato su “True” e quello di `false_string` su “False”. Il `target_index` è impostato su 1, il che significa che la flag_row colonna verrà inserita nella seconda posizione (indice 1) nell'output. DataFrame

call(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)

true_string: valore da inserire se la riga corrisponde a una riga precedente.
false_string: valore da inserire se la riga è univoca.
target_column: nome della nuova colonna inserita nel set di dati.

apply(cls, *args, **kwargs)

Ereditato da GlueTransform apply.

name(cls)

Ereditato da GlueTransform name.

describeArgs(cls)

Ereditato da GlueTransform describeArgs.

describeReturn(cls)

Ereditato da GlueTransform describeReturn.

describeTransform(cls)

Ereditato da GlueTransform describeTransform.

describeErrors(cls)

Ereditato da GlueTransform describeErrors.

describe(cls)

Ereditato da GlueTransform describe.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

FillWithMode

RemoveDuplicates