Ho telai 10 di dati pyspark.sql.dataframe.DataFrame
, ottenuti da randomSplit
come (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)
Ora voglio unire 9 td
's in un singolo frame di dati, come devo fare?
Ho già provato con unionAll
, ma questa funzione accetta solo due argomenti.
td1_2 = td1.unionAll(td2)
# this is working fine
td1_2_3 = td1.unionAll(td2, td3)
# error TypeError: unionAll() takes exactly 2 arguments (3 given)
Esiste un modo per combinare più di due frame di dati per riga?
Lo scopo di questo è che sto facendo manualmente 10 volte Cross Validation senza usare il CrossValidator
metodo PySpark , quindi prendendo 9 in allenamento e 1 in dati di test e poi lo ripeterò per altre combinazioni.