HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Kinerja HBase CDH5 (HBase1) vs CDH6 (HBase2)

Pelanggan HBase yang melakukan upgrade ke CDH 6 dari CDH 5, juga akan mendapatkan upgrade HBase dari HBase1 ke HBase2. Kinerja merupakan aspek penting yang dipertimbangkan pelanggan. Kami mengukur kinerja CDH 5 HBase1 vs CDH 6 HBase2 menggunakan beban kerja YCSB untuk memahami implikasi kinerja dari peningkatan pada pelanggan yang melakukan peningkatan di tempat (tidak ada perubahan pada perangkat keras).

Tentang YCSB

Untuk pengujian kami, kami menggunakan Yahoo! Tolok Ukur Layanan Cloud (YCSB). YCSB adalah spesifikasi sumber terbuka dan rangkaian program untuk mengevaluasi kemampuan pengambilan dan pemeliharaan program komputer. Ini sering digunakan untuk membandingkan kinerja relatif sistem manajemen basis data NoSQL.

Patokan asli dikembangkan oleh pekerja di divisi penelitian Yahoo! yang merilisnya pada tahun 2010. 

Info lebih lanjut tentang YCSB di https://github.com/brianfrankcooper/YCSB

Dalam lingkungan pengujian kami, skala data YCSB @1TB digunakan, dan beban kerja yang dijalankan mencakup beban kerja default YCSB dan beban kerja yang disesuaikan.

Beban kerja pengujian YCSB yang digunakan: 

  • Beban Kerja A (Baca+Perbarui) :Contoh aplikasi:Penyimpanan sesi merekam tindakan terbaru dalam sesi pengguna
    • 50% BACA
    • PERBARUI 50%
  • Beban Kerja C (Hanya Baca) :Contoh aplikasi:Baca cache profil pengguna, tempat profil dibuat di tempat lain (mis., Hadoop)
    • 100% BACA
  • Beban Kerja F (Baca+Ubah+Tulis) :Contoh Aplikasi:Basis data pengguna, tempat catatan pengguna dibaca dan dimodifikasi oleh pengguna atau untuk merekam aktivitas pengguna
    • 50% BACA
    • PERBARUI 25%
    • 25% BACA-UBAH-TULIS
  • Hanya Pembaruan beban kerja YCSB khusus Cloudera :Contoh aplikasi:Pembaruan massal
    • 100% UPDATE operasi

Info selengkapnya tentang beban kerja YCSB di https://github.com/brianfrankcooper/YCSB/wiki/Core-Workloads

Metodologi Pengujian

Kami memuat dataset YCSB dengan 1000.000.000 catatan dengan setiap catatan berukuran 1KB, menghasilkan total 1TB data. Setelah memuat, kami menunggu semua operasi pemadatan selesai sebelum memulai pengujian beban kerja. Setiap beban kerja yang diuji dijalankan 3 kali masing-masing selama 15 menit dan throughput* diukur. Jumlah rata-rata diambil dari 3 tes untuk menghasilkan angka akhir.

* Throughput (ops/sec) =Jumlah operasi per detik

Perbandingan throughput CDH5 HBase1 vs CDH6 HBase2 menggunakan YCSB

Hanya Throughput Pembaruan Kustom

Hanya Perbarui . Kasus penggunaan:Pembaruan massal
Troughput CDH6 HBase2 50% lebih banyak daripada CDH5 HBase1

Beban Kerja YCSB Sebuah Throughput

Perbarui berat. Kasus penggunaan:Penyimpanan sesi, merekam tindakan terbaru
CDH6 HBase2 throughput 6% lebih rendah dari CDH5 dengan HBase1

Troughput C Beban Kerja YCSB

Hanya Baca. Kasus penggunaan:Cache profil pengguna, cache umpan berita
CDH6 HBase2 throughput 5% lebih rendah dari CDH5 HBase1

Troughput F Beban Kerja YCSB

Baca-Ubah-Tulis. Kasus penggunaan:Penyimpanan aktivitas, basis data pengguna
Troughput CDH6 HBase2 sangat dekat dengan CDH5 HBase1

Ringkasan Hasil Pengujian

Hanya Pembaruan Khusus beban kerja :  Pembaruan HBase2 CDH6 Hanya beban kerja yang dilakukan 50% lebih baik dari HBase1 CDH5

Beban kerja YCSB Workload F: Operasi beban kerja CDH6 YCSB Workload F dan throughput sangat mirip ke CDH5 HBase1

Beban kerja YCSB Workload A dan YCSB Workload C: CDH6 YCSB Beban Kerja C Hanya Baca dan Beban Kerja YCSB A kurang lebih 5% lebih sedikit operasi dan throughput daripada CDH5 HBase1

Versi CDH Dibandingkan

Versi CDH6:Cloudera Enterprise 6.2

Versi CDH5:Cloudera Enterprise 5.16.2

Nama Java VM:Java HotSpot(TM) Server VM 64-Bit

Versi Java:1.8.0_141

Lingkungan Uji

Kluster yang digunakan : 6 node cluster
Deskripsi Node: Dell PowerEdge R430, 20c/40t Xenon e5-2630 v4 @ 2.2Ghz, Ram 128GB, disk 4-2TB

Pengaturan Pengujian

  • Versi YCSB:0.14.0
  • Versi Mengikat YCSB hbase20
  • Tabel YCSB dengan skala @1 TB
  • Konfigurasi WAL
    • Jumlah Pipeline WAL Per-RegionServer (wal.regiongrouping.numgroups ) disetel ke 1
    • Multi-WAL:wal.provider setel ke Beberapa HDFS WAL
      • Catatan -> Di sini, WAL tunggal yang digunakan sebagai saluran pipa WAL disetel ke 1
    • WAL Asyncfs:region.replica.replication.enabled disetel ke salah
  • Keamanan: Tidak ada yang dikonfigurasi (Tanpa Kerberos)
  • Server wilayah
    • Jumlah Wilayah dalam tabel YCSB 250, dengan cluster node 5+1, kira-kira 50 wilayah per server wilayah
    • Ukuran server Wilayah Rata-rata 290G
    • Data per wilayah ~ 6G
  • Hanya cache L1 dengan LruBlockCache yang digunakan dengan batas ukuran cache 3 GB

Berdasarkan pengujian kami (hasil di atas), pelanggan yang ingin meningkatkan versi dari CDH 5.x ke 6.x akan mengharapkan peningkatan kinerja yang signifikan untuk pembaruan massal dan kinerja yang cukup mirip untuk beban kerja lain dibandingkan dengan apa yang mereka dapatkan saat ini.

Pelajari lebih lanjut tentang Cloudera Operational DB di sini


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Plugin Cloudera Replication memungkinkan replikasi x-platform untuk Apache HBase

  2. Di dalam Arsitektur Penyerapan Data Hampir Real-Time di Santander

  3. Cara menerapkan model ML ke produksi

  4. Apa yang Harus dan Tidak Boleh Dilakukan Apache HBase

  5. Singkatnya, Replikasi Basis Data Operasional Cloudera