AWS EMR PySpark terhubung ke mysql

Jika Anda ingin menjalankan Spark Job apa pun di Amazon EMR 3.x atau EMR 4.x, Anda perlu melakukan hal-hal berikut:

1) Anda dapat menyebutkan spark-defaults.conf properties saat bootstrap yaitu Anda dapat mengubah Konfigurasi Driver Classpath dan Jalur Kelas Pelaksana properti dan juga maximizeResourceAllocation (Minta info lebih lanjut di komentar jika perlu.) dokumen

2) Anda perlu mengunduh semua stoples yang diperlukan, mis. adalah MASTER, CORE, atau TASK (Spark On Yarn Scenario mencakup paling banyak) dokumentasi skrip bootstrap

3) Dan jika Spark Job Anda hanya berkomunikasi dari node Driver ke Database Anda, maka Anda mungkin hanya memerlukannya menggunakan --jars dan tidak akan memberi Anda pengecualian dan berfungsi dengan baik.

4) Juga menyarankan Anda untuk mencoba Master sebagai gugus benang alih-alih lokal atau klien benang

Dalam kasus Anda, jika Anda menggunakan MariaDB atau MySQL, salin toples Anda di $SPARK_HOME/lib , $HADOOP_HOME/lib dll. di setiap node cluster Anda, lalu cobalah.

Nanti Anda dapat menggunakan Tindakan bootstrap untuk menyalin toples Anda di semua node saat waktu Pembuatan Cluster.

Silakan komentar di bawah untuk info lebih lanjut.