Dapatkan dinyalakan oleh Apache Spark

Terima kasih atas waktunya; Saya pasti mencoba untuk menghargai Anda. Di bagian 1 – kita membahas tentang library Apache Spark, Komponen Spark seperti Driver, DAG Scheduler, Task Scheduler, dan Worker. Sekarang di Bagian 2 -kita akan membahas Dasar-dasar Konsep Spark seperti Kumpulan Data Terdistribusi yang Tangguh, Variabel Bersama, SparkContext, Transformasi, Tindakan, dan Keuntungan menggunakan Spark bersama dengan contoh dan kapan harus menggunakan Spark.

RDD – Kumpulan data terdistribusi yang tangguh

Mereka adalah kumpulan elemen serial dan koleksi semacam itu dapat dipartisi dalam hal ini disimpan dalam beberapa node.

Itu mungkin berada di memori atau di disk.

Spark menggunakan RDD untuk mengurangi I/O dan memelihara data yang diproses dalam memori

RDD membantu menoleransi kegagalan node dan tidak perlu memulai ulang seluruh proses atau komputasi

Biasanya dibuat dari format input Hadoop atau dari transformasi yang diterapkan pada RDD yang ada.

RDD menyimpan garis keturunan datanya; jika data hilang, Spark memutar ulang garis keturunan untuk membangun kembali RDD yang hilang.

RDD tidak dapat diubah.

Variabel bersama

Spark memiliki dua jenis variabel yang memungkinkan berbagi informasi antara node eksekusi.

Dua variabel adalah variabel broadcast &akumulator.

Variabel siaran semuanya dikirim ke node eksekusi jarak jauh, mirip dengan objek Konfigurasi MapReduce.

Semua akumulator juga dikirim ke node eksekusi jarak jauh, dengan batasan bahwa kami hanya dapat menambahkan variabel akumulator, mirip dengan penghitung MapReduce.

Konteks percikan

Ini adalah objek yang mewakili koneksi ke cluster Spark.

Ini digunakan untuk membuat RDD, menyiarkan data, dan menginisialisasi akumulator.

Transformasi

Ini adalah fungsi yang mengambil satu RDD dan mengembalikan yang lain.

Transformasi tidak akan pernah mengubah inputnya, hanya mengembalikan RDD yang dimodifikasi.

Itu selalu malas, jadi mereka tidak menghitung hasilnya. Alih-alih memanggil fungsi transformasi hanya membuat RDD baru.

Seluruh rangkaian transformasi tersebut di atas dieksekusi ketika suatu tindakan dipanggil.

Ada banyak transformasi di Spark – map(), filter(), KeyBy(), Join(), groupByKey(), sort().

Tindakan

Tindakan adalah metode yang mengambil RDD dan melakukan komputasi serta mengembalikan hasilnya ke aplikasi driver.

Tindakan memicu komputasi transformasi, dan hasilnya dapat berupa kumpulan, nilai ke layar, nilai yang disimpan ke file.

Tindakan tidak akan pernah mengembalikan RDD.

Manfaat

Kesederhanaan
Fleksibilitas
I/O disk berkurang
Penyimpanan
Multibahasa
Independensi manajer sumber daya
Cangkang interaktif (REPL)

Spark, seperti alat big data lainnya, sangat kuat, mampu, dan cocok untuk menangani berbagai tantangan analitik &data besar.

Artikel ini awalnya muncul di sini. Diterbitkan ulang dengan izin. Kirim keluhan hak cipta Anda di sini.