MongoDB
 sql >> Teknologi Basis Data >  >> NoSQL >> MongoDB

bagaimana cara menyimpan dataframe di mongodb menggunakan pyspark?

Cara efisien untuk menulis ke mongodb dari pyspark adalah dengan menggunakan MongoDB Konektor Percikan . Konektor akan mengubah data menjadi format BSON dan menyimpannya ke mongodb. Katakanlah Anda memiliki spark dataframe bernama df yang ingin Anda simpan di mongodb. Anda dapat mencoba:

from pyspark.sql import SparkSession, SQLContext
from pyspark import SparkConf, SparkContext
sc = SparkContext()
spark = SparkSession(sc)   


df.write.format("com.mongodb.spark.sql.DefaultSource").mode("append").option("spark.mongodb.output.uri","mongodb://username:[email protected]_details:27017/db_name.collection_name?authSource=admin").save()

Jika Anda menggunakan buku catatan, tulis ini di atas-

%%configure
{"conf": {"spark.jars.packages": "org.mongodb.spark:mongo-spark-connector_2.11:2.3.2"}}

Jika Anda menggunakan perintah spark-submit:

spark-submit --conf spark.pyspark.python=/usr/bin/anaconda/envs/py35/bin/python3.5 --packages org.mongodb.spark:mongo-spark-connector_2.11:2.3.1 file_name.py


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Cara mengkonfigurasi port baru untuk mongodb

  2. Bagaimana cara menjalankan kueri asli MongoDB (JSON) hanya menggunakan driver mongo-java?

  3. Penggunaan indeks gabungan MongoDB

  4. Cara terbaik untuk menyimpan tanggal/waktu di mongodb

  5. Meteor menggunakan Azure MongoDB