Blog ini memberi Anda deskripsi tentang Hadoop Fitur Ketersediaan Tinggi HDFS. Di blog ini pertama-tama kita akan membahas apa itu high availability, Bagaimana Hadoop mencapai high availability, apa saja kebutuhan fitur high availability HDFS.
Kami juga akan membahas contoh fitur ketersediaan tinggi Hadoop dalam tutorial Hadoop data besar ini.
Apa itu Hadoop HDFS High Availability?
HDFS Hadoop adalah sistem file terdistribusi. HDFS mendistribusikan data di antara node di cluster Hadoop dengan membuat replika file. Kerangka kerja Hadoop menyimpan replika file ini di mesin lain yang ada di cluster.
Jadi, ketika klien HDFS ingin mengakses datanya, dia dapat dengan mudah mengakses data tersebut dari sejumlah mesin yang ada di cluster. Data tersedia dengan mudah di node terdekat dalam cluster.
Pada beberapa kondisi yang tidak menguntungkan seperti kegagalan sebuah node, klien dapat dengan mudah mengakses data mereka dari node lain. Fitur Hadoop ini disebut Ketersediaan Tinggi .
Bagaimana Ketersediaan Tinggi dicapai di Hadoop?
Di cluster HDFS, ada sejumlah DataNodes . Setelah interval waktu tertentu, semua DataNodes ini mengirimkan pesan detak jantung ke NameNode . Jika NameNode berhenti menerima pesan detak jantung dari salah satu DataNodes ini, maka NameNode akan menganggapnya mati.
Setelah itu, ia memeriksa data yang ada di node tersebut dan kemudian memberikan perintah ke datanode lain untuk membuat replika data tersebut ke datanode lain. Oleh karena itu data selalu tersedia.
Ketika klien meminta akses data di HDFS, pertama-tama, NameNode mencari data di datanode tersebut, di mana data tersedia dengan cepat. Dan kemudian memberikan akses ke data tersebut ke klien.
Klien tidak perlu mencari data di semua datanode. HDFS Namenode sendiri membuat ketersediaan data menjadi mudah bagi klien dengan memberikan alamat datanode dari mana pengguna dapat langsung membaca.
Contoh Hadoop Ketersediaan Tinggi
Hadoop HDFS menyediakan ketersediaan data yang tinggi. Saat klien meminta NameNode untuk akses data, NameNode akan mencari semua node di mana data tersebut tersedia.
Setelah itu, ia menyediakan akses ke data tersebut kepada pengguna dari node di mana data tersedia dengan cepat. Saat mencari data di semua node dalam cluster, jika NameNode menemukan beberapa node mati, maka tanpa sepengetahuan pengguna NameNode mengalihkan pengguna ke node lain di mana data yang sama tersedia.
Tanpa gangguan apa pun, data tersedia untuk pengguna. Jadi dalam kondisi kegagalan node juga data sangat tersedia untuk pengguna.
Apa masalah dalam sistem lama?
- Data tidak tersedia karena mesin mogok.
- Klien HDFS harus menunggu lama untuk mengakses datanya. Sebagian besar waktu pengguna harus menunggu selama jangka waktu tertentu hingga situs web aktif.
- Fungsi dan fitur terbatas.
- Karena tidak tersedianya data, penyelesaian banyak proyek besar di organisasi diperpanjang untuk jangka waktu yang lama dan oleh karena itu perusahaan harus melalui situasi kritis.
Kesimpulan
Oleh karena itu, data In Hadoop sangat tersedia dan dapat diakses meskipun perangkat keras mengalami kegagalan karena banyak salinan data. Jadi, jika ada node atau mesin yang crash atau down, data kita bisa mengakses data dari jalur lain. Pelajari lebih lanjut Fitur HDFS.
Jika menurut Anda blog ini bermanfaat di Hadoop High Availability, silakan bagikan pemikiran Anda di bagian komentar.