Ini Tutorial Hadoop adalah semua tentang Kesadaran Rak di Hadoop. Di blog ini kami akan menjelaskan setiap dan segala sesuatu tentang Kesadaran Rak di HDFS .
Pertama-tama kita akan mempelajari apa itu properti HDFS Rack Awareness, apa kebutuhan Rack Awareness di Hadoop. Kemudian kita akan membahas penempatan replika melalui Rack Awareness di HDFS.
Terakhir kita juga akan membahas berbagai manfaat Rack Awareness dalam framework Hadoop.
Pengantar Kesadaran Rak HDFS
Kesadaran Rak di Hadoop adalah konsep yang memilih Datanodes lebih dekat berdasarkan informasi rak. Secara default, instalasi Hadoop mengasumsikan bahwa semua node berada di rak yang sama.
Untuk meningkatkan lalu lintas jaringan saat membaca/menulis file HDFS dalam kelompok besar Hadoop. NameNode memilih node data, yang berada di rak yang sama atau batu terdekat untuk membaca/menulis permintaan (node klien). HDFS Namenode mencapai informasi rak ini dengan mempertahankan id rak dari setiap node data.
Mengapa Kesadaran Rak?
Tujuan utama kesadaran Rak adalah untuk:
- Meningkatkan keandalan dan ketersediaan data.
- Kinerja klaster yang lebih baik.
- Mencegah kehilangan data jika seluruh rak gagal.
- Untuk meningkatkan bandwidth jaringan.
- Simpan aliran massal di rak jika memungkinkan.
Penempatan replika melalui Kesadaran Rak di Hadoop
Tujuan utama penempatan replika melalui kesadaran Rak, kebijakannya adalah untuk meningkatkan keandalan data, dll.
Kebijakan sederhana adalah menempatkan replika di rak untuk mencegah hilangnya data saat seluruh rak gagal. Dan izinkan penggunaan bandwidth dari beberapa rak saat membaca file.
Pada beberapa kelompok rak, blokir replikasi mengikuti kebijakan di bawah ini:
Anda tidak boleh menempatkan lebih dari satu replika pada satu node. Anda juga tidak boleh menempatkan lebih dari dua replika di rak yang sama. Ini memiliki hambatan bahwa jumlah rak yang digunakan untuk replikasi blok harus selalu kurang dari jumlah total replika blok.
Misalnya;
- Saat kerangka kerja Hadoop membuat blok baru, ia menempatkan replika pertama pada simpul lokal. Dan tempatkan yang kedua di rak yang berbeda, dan yang ketiga di simpul yang berbeda di simpul lokal.
- Saat mereplikasi blok, jika jumlah replika yang ada adalah satu, letakkan blok kedua di rak yang berbeda.
- Bila jumlah replika yang ada adalah dua, jika dua replika berada di rak yang sama, letakkan replika ketiga di rak yang berbeda.
Keuntungan Kesadaran Rak di Hadoop
Sekarang mari kita bahas beberapa keuntungan dari Rack Awareness di Hadoop HDFS-
- Menyediakan bandwidth yang lebih tinggi dan latensi yang rendah – Kebijakan ini memaksimalkan bandwidth jaringan dengan mentransfer blok di dalam rak daripada antar rak. YARN mampu mengoptimalkan kinerja pekerjaan MapReduce dengan menetapkan tugas ke node yang lebih dekat dengan datanya dalam hal topologi jaringan.
- Memberikan perlindungan data terhadap kegagalan rak – Namenode menetapkan replika blok 2 Dan 3 Blok ke node di rak yang berbeda dari replika pertama. Dengan demikian, ini memberikan perlindungan data bahkan terhadap kegagalan rak. Namun, ini hanya mungkin jika Hadoop dikonfigurasi dengan pengetahuan tentang konfigurasi raknya.
- Minimalkan biaya penulisan dan Maksimalkan kecepatan baca – Kesadaran rak, kebijakan menempatkan permintaan baca/tulis ke replika yang berada di rak yang sama. Dengan demikian, ini meminimalkan biaya menulis dan memaksimalkan kecepatan membaca.
Kesimpulan
Kesimpulannya, itu adalah konsep yang memilih Datanodes lebih dekat berdasarkan informasi rak untuk meningkatkan keandalan data. Tujuan utama Rack-Awareness adalah untuk mencegah kehilangan data jika seluruh rak gagal. Ini juga meningkatkan bandwidth jaringan. Pelajari lebih lanjut properti HDFS secara mendetail.
Jika Anda memiliki pertanyaan terkait dengan Rack Awareness di Hadoop, silakan bagikan dengan kami di bagian komentar. Kami akan mencoba yang terbaik untuk membantu Anda.