Di blog Tutorial Hadoop ini, kita akan membahas HDFS Penyeimbang Disk secara rinci. Pertama-tama kita akan membahas apa itu Disk Balancer di Hadoop, kemudian kita akan membahas berbagai pengoperasian Hadoop Disk balancer.
Kami juga akan membahas Intra DataNode Disk Balancer di hadoop dan algoritmanya. Akhirnya dalam tutorial ini, kita akan membahas fitur Hadoop Penyeimbang disk HDFS secara detail.
Pengantar HDFS Disk Balancer
Penimbang Disk HDFS adalah alat baris perintah. Ini mendistribusikan data secara seragam pada semua disk dari datanode. HDFS Disk balancer benar-benar berbeda dari Balancer, yang menangani penyeimbangan data di seluruh cluster.
Karena alasan di bawah ini, HDFS mungkin tidak selalu mendistribusikan data dengan cara yang seragam di seluruh disk:
- Banyak tulisan dan penghapusan
- Penggantian disk
Ini mengarah pada kemiringan yang signifikan dalam DataNode. Dengan demikian HDFS Balancer tidak dapat menangani hal ini, yang berkaitan dengan Inter, Non-Intra, DN skew.
Jadi, fungsionalitas Intra-DataNode Balancing baru muncul untuk mengatasi situasi ini. Ini dipanggil melalui HDFS Disk Balancer CLI.
Disk Balancer bekerja melawan datanode tertentu dan memindahkan blok dari satu disk ke disk lainnya.
Pengoperasian Penyeimbang Disk
Dengan membuat rencana (satu set pernyataan) dan menjalankan rencana itu pada datanode, penyeimbang Disk HDFS berfungsi. Kumpulan pernyataan ini menjelaskan berapa banyak data yang harus dipindahkan di antara dua disk.
Sebuah rencana memiliki banyak langkah langkah. Langkah-langkah pemindahan ini memiliki sejumlah byte untuk dipindahkan, disk sumber, dan disk tujuan. Sebuah rencana dapat dijalankan terhadap datanode operasional.
Penyeimbang disk HDFS tidak diaktifkan secara default;
Jadi, untuk mengaktifkan penyeimbang disk HDFS dfs.disk.balancer.enabled disetel benar di hdfs-site.xml .
DiskBalancer Intra-DataNode HDFS
Ketika pengguna menulis blok baru di HDFS, maka dengan menggunakan kebijakan pemilihan volume, datanode memilih disk untuk blok tersebut. Berikut adalah dua kebijakan tersebut:
- Permainan round-robin – Kebijakan ini mendistribusikan blok baru secara seragam di seluruh disk yang tersedia.
- Ruang yang tersedia – Kebijakan ini menulis data ke disk yang memiliki lebih banyak ruang kosong berdasarkan persentase.
Secara default, HDFS DataNode menggunakan kebijakan Round-robin.
Datanode masih membuat volume ketidakseimbangan yang signifikan karena penghapusan file besar-besaran dan penambahan di HDFS. Bahkan ada kemungkinan bahwa kebijakan pemilihan volume berbasis ruang yang tersedia dapat menyebabkan I/O disk kurang efisien.
Setiap penulisan baru akan masuk ke disk kosong baru yang ditambahkan sementara pada saat itu disk lain tidak digunakan. Dengan demikian, menciptakan hambatan pada disk baru.
Untuk mengurangi masalah ketidakseimbangan data, komunitas Apache Hadoop mengembangkan skrip offline server. HDFS-1312 juga memperkenalkan penyeimbang disk online. Ini menyeimbangkan kembali volume pada datanode yang berjalan berdasarkan berbagai metrik.
Kemampuan HDFS Disk Balancer
1. Laporan penyebaran data
Pengguna dapat mengukur cara menyebarkan data melalui metrik.
a) Volume data density atau Intra-node data density
Metrik ini dapat menghitung berapa banyak data pada sebuah node. Beri tahu juga penyimpanan ideal pada setiap volume.
Rumus untuk perhitungan, yaitu Total data pada node tersebut dibagi dengan total kapasitas disk dari node tersebut.
Penyimpanan ideal = total terpakai % total kapasitas
Volume kepadatan data = penyimpanan ideal – dfsUsedRatio
- Nilai positif- Ini menunjukkan bahwa disk kurang dimanfaatkan.
- Nilai negatif- Ini menunjukkan bahwa disk digunakan secara berlebihan.
b) Kepadatan data simpul atau kepadatan data antar simpul
Seperti sekarang kami telah menghitung kepadatan data volume. Jadi, kita dapat dengan mudah membandingkan semua node di pusat data yang perlu diseimbangkan?
c) Laporan
Sekarang kita memiliki kepadatan data volume dan kepadatan data node. Jadi penyeimbang disk dapat menyeimbangkan 20 node teratas dalam cluster yang memiliki distribusi data yang tidak seimbang.
2. Seimbangkan data antara volume saat datanode hidup
HDFS Disk balancer memiliki kemampuan untuk memindahkan data dari satu volume ke volume lainnya.
Kesimpulan
Kesimpulannya, kita dapat mengatakan bahwa Disk Balancer adalah alat yang mendistribusikan data pada semua disk dari datanode. Ia bekerja dengan membuat rencana (set pernyataan) dan mengeksekusi rencana itu di datanode.
HDFS Disk Balancer menggunakan Round-robin dan Ruang yang tersedia kebijakan untuk memilih disk untuk blok. Jika Anda merasa blog ini bermanfaat, atau Anda memiliki pertanyaan, silakan bagikan dengan kami di bagian komentar. Kami akan dengan senang hati menyelesaikannya.