Dalam tutorial MapReduce ini, kita akan membahas perbandingan antara MapReduce InputSplit vs Blocks di Hadoop . Pertama, kita akan melihat apa itu blok data HDFS di sebelah Hadoop InputSplit.
Kemudian kita akan melihat perbedaan fitur antara InputSplit vs Blok. Terakhir, kita juga akan membahas contoh Hadoop InputSplit dan blok Data di HDFS.
Pengantar InputSplit dan Blok di Hadoop
Mari kita bahas dulu apa itu Blok Data HDFS dan apa itu Hadoop InputSplit satu per satu.
1. Apa itu Blok di HDFS?
HDFS Hadoop membagi file besar menjadi potongan-potongan kecil yang dikenal sebagai Blok. Ini berisi jumlah minimum data yang dapat dibaca atau ditulis. HDFS menyimpan setiap file sebagai blok.
Aplikasi Hadoop mendistribusikan blok data ke beberapa node. Klien HDFS tidak memiliki kontrol di blok seperti lokasi blok, Namenode memutuskan semua hal seperti itu.
2. Apa itu InputSplit di Hadoop?
Ini mewakili data yang pemeta proses. Jadi jumlah tugas peta sama dengan jumlah InputSplits. Kerangka membagi dibagi menjadi catatan, yang proses mapper.
Awalnya file input menyimpan data untuk pekerjaan MapReduce. Masukkan file biasanya berada di HDFS InputFormat menjelaskan cara memisahkan dan membaca file input. InputFormat bertanggung jawab untuk membuat InputSplit.
Perbandingan Antara InputSplit vs Blok di Hadoop
Sekarang mari kita bahas perbedaan fitur antara InputSplit vs Blok di Hadoop Framework.
1. Representasi Data
- Blokir – Blok HDFS adalah representasi fisik data di Hadoop.
- Pemisahan Masukan – MapReduce InputSplit adalah representasi logis dari data yang ada di blok di Hadoop. Ini pada dasarnya digunakan selama pemrosesan data dalam program MapReduce atau teknik pemrosesan lainnya. Hal utama yang harus difokuskan adalah bahwa InputSplit tidak berisi data aktual; itu hanya referensi ke data.
2. Ukuran
- Blokir – Secara default, ukuran blok HDFS adalah 128MB yang dapat Anda ubah sesuai kebutuhan Anda. Semua blok HDFS berukuran sama kecuali blok terakhir, yang bisa berukuran sama atau lebih kecil. Kerangka kerja Hadoop memecah file menjadi blok 128 MB dan kemudian menyimpannya ke dalam sistem file Hadoop.
- Pemisahan Masukan – Ukuran InputSplit secara default kira-kira sama dengan ukuran blok. Ini ditentukan oleh pengguna. Dalam program MapReduce, pengguna dapat mengontrol ukuran split berdasarkan ukuran data.
3. Contoh Blok dan InputSplit di Hadoop
Misalkan kita perlu menyimpan file dalam HDFS. Hadoop HDFS menyimpan file sebagai blok. Blok adalah unit data terkecil yang dapat disimpan atau diambil dari disk.
Ukuran default blok adalah 128MB. Hadoop HDFS memecah file menjadi beberapa blok. Kemudian blok tersebut disimpan pada node yang berbeda dalam cluster.
Misalnya, kami memiliki file 132 MB. Jadi HDFS akan memecah file ini menjadi 2 blok.
Sekarang, jika kita ingin melakukan operasi MapReduce pada blok, itu tidak akan diproses. Alasannya adalah 2 blok tidak lengkap. Jadi, InpuSplit memecahkan masalah ini.
MapReduce InputSplit akan membentuk pengelompokan logis dari blok sebagai satu blok. Karena InputSplit menyertakan lokasi untuk blok berikutnya dan offset byte dari data yang diperlukan untuk menyelesaikan blok.
Kesimpulan
Oleh karena itu, InputSplit hanyalah sepotong data logis, yaitu hanya memiliki informasi tentang alamat atau lokasi blok. Sedangkan Block adalah representasi fisik dari data.
Sekarang saya yakin, Anda memiliki pemahaman yang lebih jelas tentang blok Data InputSplit dan HDFS setelah membaca blog ini. Jika Anda menemukan perbedaan lain antara InputSplit vs Blok, beri tahu kami di bagian komentar.