MongoDB
 sql >> Teknologi Basis Data >  >> NoSQL >> MongoDB

Mengapa konektor Mongo Spark mengembalikan jumlah kueri yang berbeda dan salah?

Saya memecahkan masalah saya. Alasan penghitungan yang tidak konsisten adalah MongoDefaultPartitioner yang membungkus MongoSamplePartitioner yang menggunakan random sampling. Sejujurnya ini adalah default yang cukup aneh bagi saya. Saya pribadi lebih suka memiliki partisi yang lambat tapi konsisten. Detail untuk opsi partisi dapat ditemukan di opsi konfigurasi resmi dokumentasi.

kode:

val df = spark.read
  .format("com.mongodb.spark.sql.DefaultSource")
  .option("uri", "mongodb://127.0.0.1/enron_mail.messages")
  .option("partitioner", "spark.mongodb.input.partitionerOptions.MongoPaginateBySizePartitioner ")
  .load()


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Mengapa mongodb tidak memberi saya lebih dari 100 dokumen?

  2. Agregasi luwak dengan geonear

  3. grup pymongo berdasarkan tanggal waktu

  4. Tidak dapat terhubung dari JAVA ke Mongo SSL Replica Set

  5. Cara memasukkan banyak item sekaligus dalam koleksi MongoDB