Buat tabel sql dari dataframe dask menggunakan map_partitions dan pd.df.to

Buat tabel sql dari dataframe dask menggunakan map_partitions dan pd.df.to_sql

Sederhananya, Anda telah membuat kerangka data yang merupakan resep dari pekerjaan yang harus dilakukan, tetapi Anda belum menjalankannya. Untuk mengeksekusi, Anda perlu memanggil .compute() pada hasilnya.

Perhatikan bahwa output di sini sebenarnya bukan kerangka data, setiap partisi dievaluasi menjadi None (karena to_sql tidak memiliki keluaran), jadi mungkin lebih bersih untuk mengekspresikannya dengan df.to_delayed , sesuatu seperti

dto_sql = dask.delayed(pd.DataFrame.to_sql)
out = [dto_sql(d, 'table_name', db_url, if_exists='append', index=True)
       for d in ddf.to_delayed()]
dask.compute(*out)

Perhatikan juga, apakah Anda mendapatkan paralelisme yang baik akan bergantung pada driver database dan sistem data itu sendiri.