PostgreSQL
 sql >> Teknologi Basis Data >  >> RDS >> PostgreSQL

Menggunakan sumber JDBC Postgresql dengan Apache Spark di EMR

Saya pikir Anda tidak perlu menyalin toples postgres di budak karena program driver dan manajer cluster mengurus semuanya. Saya telah membuat kerangka data dari sumber eksternal Postgres dengan cara berikut:

Unduh stoples driver postgres :

cd $HOME && wget https://jdbc.postgresql.org/download/postgresql-42.2.5.jar

Buat kerangka data :

atrribute = {'url' : 'jdbc:postgresql://{host}:{port}/{db}?user={user}&password={password}' \
        .format(host=<host>, port=<port>, db=<db>, user=<user>, password=<password>),
                 'database' : <db>,
                 'dbtable' : <select * from table>}
 df=spark.read.format('jdbc').options(**attribute).load()

Kirim untuk memicu pekerjaan: Tambahkan toples yang diunduh ke jalur kelas driver saat mengirimkan pekerjaan percikan.

--properties spark.driver.extraClassPath=$HOME/postgresql-42.2.5.jar,spark.jars.packages=org.postgresql:postgresql:42.2.5 


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Apakah PostGIS secara otomatis mengonversi saat memasukkan WKT?

  2. Micronaut tidak terhubung ke db di yml

  3. Kesalahan upsert (Saat Konflik Lakukan Pembaruan) menunjuk ke duplikat nilai yang dibatasi

  4. Simulasikan CREATE DATABASE JIKA TIDAK ADA untuk PostgreSQL?

  5. Tidak dapat memulai layanan postgresql di CentOS 7