HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Apa itu Kelas Peredam Hadoop di MapReduce?

Sampai sekarang kita telah membahas Pengantar Hadoop dan HDFS Hadoop secara terperinci. Dalam tutorial ini, kami akan memberikan Anda deskripsi mendetail tentang Hadoop Reducer.

Di sini akan dibahas apa itu Reducer di MapReduce, cara kerja Reducer di Hadoop MapReduce, berbagai fase Hadoop Reducer, bagaimana kita bisa mengubah jumlah Reducer di Hadoop MapReduce.

Apa itu Peredam Hadoop?

Peredam di Hadoop MapReduce mengurangi kumpulan nilai perantara yang berbagi kunci ke kumpulan nilai yang lebih kecil.

Dalam alur eksekusi tugas MapReduce, Reducer mengambil satu set pasangan nilai kunci menengah dihasilkan oleh mapper sebagai masukan. Kemudian, Reducer mengagregasi, memfilter, dan menggabungkan pasangan nilai kunci dan ini memerlukan berbagai pemrosesan.

Pemetaan satu-satu terjadi antara kunci dan reduksi dalam eksekusi pekerjaan MapReduce. Mereka berjalan secara paralel karena mereka independen satu sama lain. Pengguna memutuskan jumlah reduksi di MapReduce.

Fase Peredam Hadoop

Tiga fase Reducer adalah sebagai berikut:

1. Fase Acak

Ini adalah fase di mana output yang diurutkan dari mapper adalah input ke peredam. Kerangka kerja dengan bantuan HTTP mengambil partisi yang relevan dari output semua pembuat peta dalam fase ini. Fase Urutkan

2. Urutkan Fase

Ini adalah fase di mana input dari pembuat peta yang berbeda diurutkan kembali berdasarkan kunci yang sama di Pemeta yang berbeda.

Acak dan Urutkan terjadi secara bersamaan.

3. Kurangi Fase

Fase ini terjadi setelah shuffle and sort. Kurangi tugas menggabungkan pasangan nilai kunci. Dengan OutputCollector.collect() properti, output dari tugas pengurangan ditulis ke FileSystem. Output peredam tidak diurutkan.

Jumlah Reducer di Hadoop MapReduce

Pengguna menyetel jumlah reduksi dengan bantuan Job.setNumreduceTasks(int) Properti. Jadi jumlah reduksi yang tepat dengan rumus:

 0,95 atau 1,75 dikalikan dengan ( * )

Jadi, dengan 0,95, semua reduksi segera diluncurkan. Kemudian, mulailah mentransfer output peta saat peta selesai.

Node yang lebih cepat menyelesaikan putaran pertama reduksi dengan 1,75. Kemudian meluncurkan peredam gelombang kedua yang melakukan pekerjaan penyeimbangan beban yang jauh lebih baik.

Dengan bertambahnya jumlah reduksi:

  • Overhead kerangka kerja meningkat.
  • Peningkatan penyeimbangan beban.
  • Biaya kegagalan berkurang.

Kesimpulan

Oleh karena itu, Reducer mengambil output pembuat peta sebagai input. Kemudian, proses pasangan nilai kunci dan menghasilkan output. Output peredam adalah output akhir. Jika Anda menyukai blog ini atau Anda memiliki pertanyaan terkait Hadoop Reducer, silakan bagikan dengan kami dengan meninggalkan komentar.

Semoga kami dapat membantu Anda.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Hadoop Partitioner – Pelajari Dasar-dasar MapReduce Partitioner

  2. Apache Spark Hadir di Apache HBase dengan Modul HBase-Spark

  3. Tutorial HDFS – Pengenalan Lengkap tentang HDFS untuk Pemula

  4. Transformasi Digital adalah Perjalanan Data Dari Ujung ke Wawasan

  5. Pengantar Federasi &Arsitektur HDFS