HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Pengantar Hadoop Combiner, Cara Kerja &Keuntungan

Dalam tutorial Hadoop . ini , kami akan memberi Anda deskripsi terperinci tentang Hadoop Combiner. Pertama-tama, kita akan melihat apa itu MapReduce Combiner, apa peran kunci dari Combiner di MapReduce.

Kemudian kita akan membahas contoh program MapReduce dengan dan tanpa combiner di Hadoop. Terakhir, kita juga akan melihat beberapa kelebihan dan kekurangan Combiner di MapReduce.

 Apa itu Hadoop Combiner?

Penggabung juga dikenal sebagai “Peredam Mini ” yang merangkum Mapper catatan keluaran dengan Kunci yang sama sebelum diteruskan ke Reducer .

Pada kumpulan data besar ketika kami menjalankan pekerjaan MapReduce. Jadi Mapper menghasilkan potongan besar data perantara. Kemudian framework meneruskan data perantara ini pada Reducer untuk diproses lebih lanjut.

Hal ini menyebabkan kemacetan jaringan yang sangat besar. Framework Hadoop menyediakan fungsi yang dikenal sebagai Combiner  yang memainkan peran kunci dalam mengurangi kemacetan jaringan.

Tugas utama Combiner a “Mini-Reducer adalah memproses data keluaran dari Mapper, sebelum meneruskannya ke Reducer. Ini berjalan setelah mapper dan sebelum Reducer. Penggunaannya opsional.

Bagaimana cara kerja Combiner di Hadoop?

Sekarang mari kita pelajari bagaimana hal-hal berubah ketika kita menggunakan penggabung di MapReduce?

Seperti yang kita lihat pada diagram di atas, tidak ada combiner. Input dibagi menjadi dua pembuat peta. Kerangka kerja menghasilkan 9 kunci dari pembuat peta.

Jadi, sekarang kita memiliki (9 kunci/nilai) data perantara. Pemeta lebih lanjut mengirimkan nilai kunci . ini langsung ke peredam. Saat mengirim data ke peredam, itu menghabiskan beberapa bandwidth jaringan. Dibutuhkan lebih banyak waktu untuk mentransfer data ke peredam jika ukuran datanya besar.

Nah dari diagram di atas, jika kita menggunakan combiner di antara mapper dan reducer. Kemudian combiner akan mengocok 9 kunci/nilai sebelum mengirimkannya ke peredam. Dan kemudian menghasilkan 4 pasangan kunci/nilai sebagai output.

Sekarang, Reducer hanya perlu memproses 4 data pasangan kunci/nilai yang dihasilkan dari 2 penggabung. Oleh karena itu peredam dieksekusi hanya 4 kali untuk menghasilkan output akhir. Dengan demikian, ini meningkatkan kinerja secara keseluruhan.

Kelebihan Combiner di MapReduce

Sekarang mari kita bahas manfaat Hadoop Combiner di MapReduce.

  • Penggunaan combiner mengurangi waktu yang dibutuhkan untuk transfer data antara mapper dan reducer.
  • Kombiner meningkatkan kinerja peredam secara keseluruhan.
  • Ini mengurangi jumlah data yang harus diproses oleh peredam.

Kekurangan Combiner di MapReduce

Ada juga beberapa kelemahan Hadoop Combiner. Sekarang mari kita bahas hal yang sama.

  • Dalam sistem file lokal, ketika Hadoop menyimpan pasangan nilai kunci dan menjalankan penggabung nanti, ini akan menyebabkan IO disk mahal.
  • Tugas MapReduce tidak dapat bergantung pada eksekusi penggabung karena tidak ada jaminan dalam eksekusinya.

Kesimpulan

Oleh karena itu, Hadoop Combiner memainkan peran kunci dalam mengurangi kemacetan jaringan. Ini meningkatkan kinerja peredam secara keseluruhan dengan meringkas output Mapper.

Saya harap sekarang Anda memiliki pemahaman yang jelas tentang Hadoop Combiner. Jika Anda masih memiliki pertanyaan, beri tahu kami dengan meninggalkan komentar di bagian bawah.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Rilis CDH 6.2:Apa yang baru di HBase

  2. Perhentian Berikutnya – Membangun Pipa Data dari Ujung ke Wawasan

  3. Membangun Proses yang Dapat Diskalakan Menggunakan NiFi, Kafka, dan HBase di CDP

  4. Mesin Pemroses Data Besar – Yang mana yang saya gunakan?:Bagian 1

  5. Apa Selanjutnya untuk Impala Setelah Rilis 1.1