Kecuali Dataset
adalah cached
menggunakan penyimpanan yang andal (standar Spark cached
hanya akan memberi Anda jaminan yang lemah) basis data dapat diakses beberapa kali, setiap kali menunjukkan status basis data saat ini. Sejak
melihat jumlah yang berbeda adalah perilaku yang diharapkan.
Selanjutnya, jika sumber JDBC digunakan dalam mode terdistribusi (dengan kolom partisi atau predicates
), maka setiap utas pelaksana akan menggunakan transaksinya sendiri. Akibatnya status Dataset
mungkin tidak sepenuhnya konsisten.
Jangan gunakan JDBC. Anda dapat misalnya
COPY
data ke sistem file dan memuatnya dari sana.- Gunakan solusi replikasi pilihan Anda untuk membuat replika yang didedikasikan untuk analisis dan setel serta jeda replikasi saat menggunakan analisis data.