Dalam tutorial Hadoop . ini , kami akan memberi Anda deskripsi terperinci tentang Hadoop Combiner. Pertama-tama, kita akan melihat apa itu MapReduce Combiner, apa peran kunci dari Combiner di MapReduce.
Kemudian kita akan membahas contoh program MapReduce dengan dan tanpa combiner di Hadoop. Terakhir, kita juga akan melihat beberapa kelebihan dan kekurangan Combiner di MapReduce.
Apa itu Hadoop Combiner?
Penggabung juga dikenal sebagai “Peredam Mini ” yang merangkum Mapper catatan keluaran dengan Kunci yang sama sebelum diteruskan ke Reducer .
Pada kumpulan data besar ketika kami menjalankan pekerjaan MapReduce. Jadi Mapper menghasilkan potongan besar data perantara. Kemudian framework meneruskan data perantara ini pada Reducer untuk diproses lebih lanjut.
Hal ini menyebabkan kemacetan jaringan yang sangat besar. Framework Hadoop menyediakan fungsi yang dikenal sebagai Combiner yang memainkan peran kunci dalam mengurangi kemacetan jaringan.
Tugas utama Combiner a “Mini-Reducer adalah memproses data keluaran dari Mapper, sebelum meneruskannya ke Reducer. Ini berjalan setelah mapper dan sebelum Reducer. Penggunaannya opsional.
Bagaimana cara kerja Combiner di Hadoop?
Sekarang mari kita pelajari bagaimana hal-hal berubah ketika kita menggunakan penggabung di MapReduce?
Seperti yang kita lihat pada diagram di atas, tidak ada combiner. Input dibagi menjadi dua pembuat peta. Kerangka kerja menghasilkan 9 kunci dari pembuat peta.
Jadi, sekarang kita memiliki (9 kunci/nilai) data perantara. Pemeta lebih lanjut mengirimkan nilai kunci . ini langsung ke peredam. Saat mengirim data ke peredam, itu menghabiskan beberapa bandwidth jaringan. Dibutuhkan lebih banyak waktu untuk mentransfer data ke peredam jika ukuran datanya besar.
Nah dari diagram di atas, jika kita menggunakan combiner di antara mapper dan reducer. Kemudian combiner akan mengocok 9 kunci/nilai sebelum mengirimkannya ke peredam. Dan kemudian menghasilkan 4 pasangan kunci/nilai sebagai output.
Sekarang, Reducer hanya perlu memproses 4 data pasangan kunci/nilai yang dihasilkan dari 2 penggabung. Oleh karena itu peredam dieksekusi hanya 4 kali untuk menghasilkan output akhir. Dengan demikian, ini meningkatkan kinerja secara keseluruhan.
Kelebihan Combiner di MapReduce
Sekarang mari kita bahas manfaat Hadoop Combiner di MapReduce.
- Penggunaan combiner mengurangi waktu yang dibutuhkan untuk transfer data antara mapper dan reducer.
- Kombiner meningkatkan kinerja peredam secara keseluruhan.
- Ini mengurangi jumlah data yang harus diproses oleh peredam.
Kekurangan Combiner di MapReduce
Ada juga beberapa kelemahan Hadoop Combiner. Sekarang mari kita bahas hal yang sama.
- Dalam sistem file lokal, ketika Hadoop menyimpan pasangan nilai kunci dan menjalankan penggabung nanti, ini akan menyebabkan IO disk mahal.
- Tugas MapReduce tidak dapat bergantung pada eksekusi penggabung karena tidak ada jaminan dalam eksekusinya.
Kesimpulan
Oleh karena itu, Hadoop Combiner memainkan peran kunci dalam mengurangi kemacetan jaringan. Ini meningkatkan kinerja peredam secara keseluruhan dengan meringkas output Mapper.
Saya harap sekarang Anda memiliki pemahaman yang jelas tentang Hadoop Combiner. Jika Anda masih memiliki pertanyaan, beri tahu kami dengan meninggalkan komentar di bagian bawah.