HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Apa itu Pasangan Nilai Kunci MapReduce di Hadoop?

Dalam tutorial Hadoop , kami akan memberikan pengantar lengkap tentang Pasangan Nilai Kunci MapReduce.

Pertama-tama kita akan membahas apa itu key value pair di Hadoop, Bagaimana key value pair dibangkitkan di MapReduce. Akhirnya kami akan menjelaskan pembuatan pasangan nilai kunci MapReduce dengan contoh.

Apa kunci Nilai Pair di Hadoop?

Pasangan nilai kunci di MapReduce adalah entitas rekaman yang diterima Hadoop MapReduce untuk dieksekusi.

Kami menggunakan Hadoop terutama untuk Analisis data. Ini berkaitan dengan data terstruktur, tidak terstruktur dan semi terstruktur. Dengan Hadoop, jika skemanya statis, kami dapat langsung mengerjakan kolom alih-alih nilai kunci. Namun, jika skema tidak statis, kami akan mengerjakan nilai kunci.

Nilai kunci bukan sifat intrinsik dari data. Tapi mereka dipilih oleh pengguna menganalisis data.

MapReduce adalah komponen inti dari Hadoop, yang menyediakan pemrosesan data. Ia melakukan pemrosesan dengan memecah pekerjaan menjadi dua fase:Fase peta dan Kurangi fase . Setiap fase memiliki kunci-nilai sebagai input dan output.

MapReduce Key nilai pasangan generasi di Hadoop

Dalam eksekusi pekerjaan MapReduce, sebelum mengirim data ke mapper , pertama-tama ubah menjadi pasangan nilai kunci. Karena pasangan mapper-satunya kunci-nilai data.

pasangan kunci-nilai dalam MapReduce dihasilkan sebagai berikut:

Pemisahan Input –  Ini adalah representasi logis dari data yang InputFormat menghasilkan. Dalam program MapReduce ini menggambarkan unit kerja yang berisi tugas peta tunggal.

Pembaca Rekaman –  Ini berkomunikasi dengan InputSplit. Setelah itu mengubah data menjadi pasangan nilai kunci yang sesuai untuk dibaca oleh Mapper. RecordReader secara default menggunakan TextInputFormat  untuk mengonversi data menjadi pasangan nilai kunci.

Dalam eksekusi pekerjaan MapReduce, fungsi peta memproses pasangan nilai kunci tertentu. Kemudian memancarkan sejumlah pasangan kunci-nilai. Fungsi Reduce memproses nilai yang dikelompokkan dengan kunci yang sama.

Kemudian memancarkan set pasangan kunci-nilai sebagai output. Jenis keluaran Peta harus sesuai dengan jenis masukan dari Reduce seperti yang ditunjukkan di bawah ini:

  • Peta: (K1, V1) -> daftar (K2, V2)
  • Kurangi: {(K2, daftar (V2}) -> daftar (K3, V3)

Atas dasar apa adalah pasangan kunci-nilai yang dihasilkan dalam Hadoop?

Pembuatan pasangan nilai kunci MapReduce sepenuhnya bergantung pada kumpulan data. Juga tergantung pada output yang dibutuhkan. Framework menentukan pasangan nilai kunci di 4 tempat:Petakan input/output, Kurangi input/output.

1. Masukan Peta

Peta Masukan secara default mengambil garis mengimbangi sebagai kunci. Isi baris adalah nilai sebagai Teks. Kita dapat memodifikasinya; dengan menggunakan format masukan khusus.

2. Keluaran Peta

Peta bertanggung jawab untuk menyaring data. Ini juga menyediakan lingkungan untuk mengelompokkan data berdasarkan kunci.

  • Kunci– Ini adalah bidang/ teks/ objek tempat data dikelompokkan dan digabungkan pada peredam .
  • Nilai– Ini adalah bidang/ teks/ objek yang masing-masing individu mengurangi pegangan metode.

3. Kurangi Masukan

Output peta adalah input untuk dikurangi. Jadi sama dengan Map-Output.

4. Kurangi Keluaran

Ini benar-benar tergantung pada output yang dibutuhkan.

Contoh Pasangan Nilai Kunci MapReduce

Sebagai contoh, isi dari file yang HDFS toko yang Chandler adalah Joey Mark John . Jadi, sekarang dengan menggunakan InputFormat, kita akan mendefinisikan bagaimana file ini akan dipecah dan dibaca. Secara default, RecordReader menggunakan TextInputFormat untuk mengonversi file ini menjadi pasangan nilai kunci.

  • Kunci –  Hal ini offset dari awal baris dalam file.
  • Nilai –   Ini adalah konten baris, tidak termasuk terminator baris.

Di sini, Kunci adalah 0 dan Nilai adalah Chandler adalah Joey Mark adalah John.

Kesimpulan

Kesimpulannya, kita dapat mengatakan bahwa, nilai kunci hanyalah entitas rekaman yang diterima MapReduce untuk dieksekusi. InputSplit dan RecordReader menghasilkan pasangan kunci-nilai. Oleh karena itu, kuncinya adalah offset byte dan nilainya adalah konten baris.

Semoga Anda menyukai blog ini. Jika Anda memiliki saran atau pertanyaan terkait dengan pasangan nilai kunci MapReduce, silakan tinggalkan komentar di bagian yang diberikan di bawah ini.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Apache Spark Hadir di Apache HBase dengan Modul HBase-Spark

  2. Administrasi Basis Data Operasional

  3. Pengantar Snapshot Apache HBase, Bagian 2:Penyelaman Lebih Dalam

  4. Membawa dukungan transaksi ke Database Operasional Cloudera

  5. Pendekatan untuk Pencadangan dan Pemulihan Bencana di HBase