HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Penghitung Hadoop &Jenis Penghitung di MapReduce

Dalam Hadoop kami sebelumnya blog kami telah memberikan Anda deskripsi rinci tentang Hadoop InputFormat dan OutputFormat . Sekarang kita akan membahas Penghitung Hadoop secara mendetail. Pada tutorial Hadoop kali ini kita akan membahas apa itu MapReduce Counter, Apa Perannya.

Terakhir, kami juga akan membahas jenis Penghitung di Hadoop MapReduce. Seperti Penghitung Tugas MapReduce, Penghitung Sistem File, Penghitung FileInputFormat,  Penghitung FileOutputFormat, Penghitung Pekerjaan di MapReduce, Penghitung Dinamis di Hadoop.

Hadoop MapReduce

Sebelum kita mulai dengan Penghitung Hadoop, mari kita pelajari dulu apa itu Hadoop MapReduce?

MapReduce adalah lapisan pemrosesan data Hadoop. Ini memproses data terstruktur dan tidak terstruktur besar yang disimpan di HDFS. MapReduce juga memproses sejumlah besar data secara paralel. Ini dilakukan dengan membagi pekerjaan (pekerjaan yang diserahkan) menjadi satu set tugas independen (sub-pekerjaan). Di Hadoop, MapReduce bekerja dengan memecah pemrosesan menjadi beberapa fase: Map dan Kurangi .

  • Fase Peta- Ini adalah tahap pertama dari proses data. Pada fase ini, kami menentukan semua logika kompleks/aturan bisnis/kode mahal.
  • Kurangi Fase- Ini adalah pemrosesan tahap kedua. Dalam fase ini, kami menentukan pemrosesan ringan seperti agregasi/penjumlahan.

Apa itu Penghitung Hadoop?

Penghitung di Hadoop adalah saluran yang berguna untuk mengumpulkan statistik tentang pekerjaan MapReduce. Seperti untuk kontrol kualitas atau untuk level aplikasi. Penghitung juga berguna untuk diagnosis masalah.

Penghitung mewakili penghitung global Apache Hadoop, yang didefinisikan baik oleh kerangka kerja MapReduce. Setiap penghitung di MapReduce diberi nama dengan "Enum". Ini juga memiliki nilai yang panjang.

Penghitung Hadoop memvalidasi bahwa:

  • Membaca dan menulis jumlah byte yang benar.
  • Ini telah diluncurkan dan berhasil menjalankan jumlah tugas yang benar atau tidak.
  • Penghitung juga memvalidasi bahwa jumlah CPU dan memori yang dikonsumsi sesuai untuk tugas dan node cluster kita atau tidak.

Jenis Penghitung di MapReduce

2 jenis penghitung MapReduce adalah:

  • Penghitung Terpasang
  • Penghitung Buatan Pengguna/Penghitung Kustom

1. Penghitung bawaan di Hadoop MapReduce

Apache Hadoop memelihara beberapa penghitung bawaan untuk setiap pekerjaan. Penghitung ini melaporkan berbagai metrik. Ada penghitung untuk jumlah byte dan catatan. Yang memungkinkan kita untuk mengkonfirmasi bahwa jumlah input yang diharapkan dikonsumsi dan jumlah output yang diharapkan dihasilkan.

Penghitung Hadoop juga dibagi menjadi beberapa kelompok. Ada beberapa kelompok penghitung built-in. Setiap grup juga berisi penghitung tugas atau penghitung tugas.

Beberapa kelompok penghitung bawaan di Hadoop adalah sebagai berikut:

a) Penghitung Tugas MapReduce

Penghitung tugas mengumpulkan informasi spesifik tentang tugas selama waktu pelaksanaannya. Yang termasuk jumlah catatan yang dibaca dan ditulis.

Misalnya penghitung MAP_INPUT_RECORDS adalah Penghitung Tugas. Ini juga menghitung catatan input yang dibaca oleh setiap tugas peta.

b) Penghitung Sistem File

Penghitung ini mengumpulkan informasi seperti sejumlah byte yang dibaca dan ditulis oleh sistem file. Nama dan deskripsi penghitung sistem file adalah sebagai berikut:

  • Byte FileSystem dibaca – Jumlah byte yang dibaca oleh sistem file.
  • Byte FileSystem ditulis – Jumlah byte yang ditulis ke sistem file.
c) Penghitung FileInputFormat

Penghitung ini juga mengumpulkan informasi sejumlah byte yang dibaca oleh tugas peta melalui FileInputFormat.

d) penghitung FileOutputFormat

Penghitung ini juga mengumpulkan informasi sejumlah byte yang ditulis oleh tugas peta (untuk tugas hanya peta) atau mengurangi tugas melalui FileOutputFormat.

e) Penghitung Pekerjaan di MapReduce

Penghitung pekerjaan mengukur statistik tingkat pekerjaan. Itu tidak mengukur nilai yang berubah saat tugas sedang berjalan.

Misalnya TOTAL_LAUNCHED_MAPS, hitung jumlah tugas peta yang diluncurkan selama pekerjaan berlangsung. Master aplikasi juga mengukur penghitung Pekerjaan.

Jadi, penghitung tidak perlu dikirim melalui jaringan, tidak seperti penghitung lainnya, termasuk penghitung yang ditentukan pengguna.

2. Penghitung Buatan Pengguna atau Penghitung Kustom di Hadoop MapReduce

Selain penghitung bawaan, Hadoop MapReduce mengizinkan kode pengguna untuk menentukan satu set penghitung. Kemudian menambahkannya seperti yang diinginkan di mapper atau peredam . Seperti di Java untuk mendefinisikan penghitung yang digunakannya, ‘enum ' .

Pekerjaan dapat menentukan jumlah 'enum' yang berubah-ubah. Masing-masing dengan jumlah bidang yang berubah-ubah. Nama enum adalah nama grup. Bidang enum adalah nama penghitung.

a) Penghitung Dinamis di Hadoop

Bidang enum Java ditentukan pada waktu kompilasi. Jadi kami tidak dapat membuat penghitung baru saat dijalankan menggunakan enum. Jadi, kami menggunakan penghitung dinamis untuk membuat penghitung baru saat dijalankan. Tetapi penghitung dinamis tidak ditentukan pada waktu kompilasi.

Kesimpulan

Oleh karena itu, Penghitung memeriksa apakah telah membaca dan menulis jumlah byte yang benar. Penghitung juga mengukur kemajuan atau jumlah operasi yang terjadi dalam pekerjaan MapReduce.

Hadoop juga memelihara penghitung bawaan dan penghitung yang ditentukan pengguna untuk mengukur kemajuan yang terjadi dalam pekerjaan MapReduce.

Semoga blog ini membantu Anda, Jika Anda memiliki pertanyaan terkait Hadoop Counter, tinggalkan komentar di bagian bawah.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Di dalam Arsitektur Penyerapan Data Hampir Real-Time di Santander

  2. tabel sampel HBase

  3. How-to:Menguji Aplikasi HBase Menggunakan Alat Populer

  4. Pengantar Hadoop Combiner, Cara Kerja &Keuntungan

  5. Apache HBase I/O – HFile