Menggunakan sumber JDBC Postgresql dengan Apache Spark di EMR

Saya pikir Anda tidak perlu menyalin toples postgres di budak karena program driver dan manajer cluster mengurus semuanya. Saya telah membuat kerangka data dari sumber eksternal Postgres dengan cara berikut:

Unduh stoples driver postgres :

cd $HOME && wget https://jdbc.postgresql.org/download/postgresql-42.2.5.jar

Buat kerangka data :

atrribute = {'url' : 'jdbc:postgresql://{host}:{port}/{db}?user={user}&password={password}' \
        .format(host=<host>, port=<port>, db=<db>, user=<user>, password=<password>),
                 'database' : <db>,
                 'dbtable' : <select * from table>}
 df=spark.read.format('jdbc').options(**attribute).load()

Kirim untuk memicu pekerjaan: Tambahkan toples yang diunduh ke jalur kelas driver saat mengirimkan pekerjaan percikan.

--properties spark.driver.extraClassPath=$HOME/postgresql-42.2.5.jar,spark.jars.packages=org.postgresql:postgresql:42.2.5