Mengapa hasil penghitungan berbeda pada pembacaan berurutan?

Kecuali Dataset adalah cached menggunakan penyimpanan yang andal (standar Spark cached hanya akan memberi Anda jaminan yang lemah) basis data dapat diakses beberapa kali, setiap kali menunjukkan status basis data saat ini. Sejak

melihat jumlah yang berbeda adalah perilaku yang diharapkan.

Selanjutnya, jika sumber JDBC digunakan dalam mode terdistribusi (dengan kolom partisi atau predicates ), maka setiap utas pelaksana akan menggunakan transaksinya sendiri. Akibatnya status Dataset mungkin tidak sepenuhnya konsisten.

Jangan gunakan JDBC. Anda dapat misalnya

COPY data ke sistem file dan memuatnya dari sana.
Gunakan solusi replikasi pilihan Anda untuk membuat replika yang didedikasikan untuk analisis dan setel serta jeda replikasi saat menggunakan analisis data.