HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Peningkatan Kinerja Basis Data Operasional di CDP Private Cloud Base 7 vs CDH5

Cloudera Data Platform (CDP) Private Cloud adalah platform lokal paling komprehensif untuk analitik terintegrasi dan manajemen data. Ini menggabungkan yang terbaik dari Cloudera Enterprise Data Hub dan Hortonworks Data Platform Enterprise Plus, dan menghadirkan teknologi open source terbaru dan terhebat untuk manajemen data dan analitik ke pusat data.

Dengan versi terbaru (7) dari CDP Private Cloud Base, kami telah memperkenalkan sejumlah fitur dan penyempurnaan baru. Dalam posting blog ini, kami ingin berbagi peningkatan kinerja yang tersedia di Apache HBase.

Bagi mereka yang baru mengenal HBase atau sedang mengevaluasinya untuk proyek baru, HBase adalah database terdistribusi non-relasional yang dipercaya oleh arsitek dan pengembang yang ingin memproses data dalam jumlah besar secara tepat waktu dan dapat diandalkan.

Untuk perbandingan kinerja ini, kami mengukur HBase2 yang tersedia di CDP Private Cloud Base 7 hingga Hbase1 yang tersedia di CDH 5 menggunakan beban kerja YCSB. Perbandingan membantu kami memahami peningkatan kinerja dan implikasi bagi pelanggan yang melakukan peningkatan di tempat tanpa perubahan pada perangkat keras yang mendasarinya.

Catatan:Pelanggan yang melakukan upgrade dari CDH 5 ke CDP 7 juga akan mendapatkan upgrade HBase dari HBase1 ke HBase2.

  • Beban kerja Khusus Pembaruan YCSB Khusus
    • Performa beban kerja Khusus Pembaruan YCSB khusus kami 
      • 100% UPDATE operasi
    • Contoh aplikasi adalah toko metrik
    • Kinerja beban kerja: Pembaruan CDP 7 YCSB Hanya throughput yang dijalankan beban kerja (operasi per detik) 20% lebih baik daripada saat dijalankan dengan CDH5

  • Beban Kerja YCSBA 
    • Beban Kerja YCSB A melakukan 
      • 50% operasi BACA
      • operasi UPDATE 50%
    • Contoh aplikasi adalah penyimpanan sesi yang merekam tindakan terbaru dalam sesi pengguna 
    • Kinerja beban kerja:CDP Private Cloud Base 7.1 HBase2 YCSB beban kerja Throughput (operasi per detik) 15% lebih baik daripada CDH5 HBase1

  • Beban Kerja YCSB C (Hanya Baca) 
    • Beban Kerja YCSB C adalah beban kerja hanya baca dan bekerja 
      • operasi BACA 100%
    • Contoh aplikasi akan membaca cache profil pengguna saat profil dibuat di tempat lain (misalnya Hadoop) atau sistem perbankan untuk mengakses dan melihat laporan rekening 
    • Kinerja beban kerja:CDP 7 Beban kerja YCSB C memiliki throughput (operasi per detik) yang serupa dengan CDH 5

Putusan – CDP 7 memberikan peningkatan kinerja daripada CDH 5 di YCSB  

Beban kerja Khusus Pembaruan Khusus :CDP 7 YCSB Pembaruan hanya beban kerja yang dilakukan 20% lebih baik dari C5.

Beban Kerja YCSB A :CDP 7 YCSB beban kerja A berkinerja 15% lebih baik dibandingkan CDH5.

Beban Kerja YCSB C :CDP 7 YCSB hanya baca beban kerja C memiliki operasi/throughput yang serupa ke CDH 5 

Selama pengujian kami, kami melihat bahwa peningkatan dari JDK8 ke JDK 11 dalam CDP 7 dapat meningkatkan kinerja sebesar 10% lagi. Ini melebihi dan di atas peningkatan kinerja yang diperoleh dengan memutakhirkan dari CDH5 ke CDP7.

CDP 7 hadir dengan JDK8 yang terinstal secara default, dan mendukung peningkatan ke JDK11. Dalam pengujian kami, CDP 7 telah diperbarui untuk menggunakan JDK 11 untuk menjalankan beban kerja YCSB yang ditunjukkan di atas. Kami juga menjalankan beban kerja yang sama dengan JDK8, dan hasil pengujian menunjukkan kinerja JDK11 5-10% lebih baik dibandingkan dengan JDK8 , seperti yang ditunjukkan pada grafik di bawah ini

Untuk mengupgrade CDP 7 dari JDK 8 ke OpenJDK 11, ikuti langkah-langkah di bawah ini:

Langkah 1:Instal OpenJDK11 di semua host menggunakan yang di bawah

RHEL 

sudo yum install java-11-openjdk

Ubuntu

sudo apt install openjdk-11-jdk

Langkah 2:Hanya pada host Server Cloudera Manager (tidak diperlukan untuk host lain):

  1. Buka file /etc/default/cloudera-scm-server dalam editor teks.
  2. Edit baris yang dimulai dengan export JAVA_HOME (jika baris ini tidak ada, tambahkan) dan ubah jalur ke jalur JDK baru (JDK biasanya dipasang di / usr/lib/jvm)(atau /usr/lib64/jvm pada SLES 12), tetapi jalurnya mungkin berbeda tergantung pada bagaimana JDK diinstal).

Untuk info lebih lanjut tentang peningkatan JDK, silakan ikuti Meningkatkan JDK

Lingkungan Uji

Metodologi Tes

CDH 5.16.3/HBase1 diinstal pada cluster dan data beban kerja dengan 1 miliar baris (Ukuran kumpulan data 1TB) dihasilkan dan beban kerja CDH 5.16.3 YCSB dijalankan. Setelah memuat, kami menunggu semua operasi pemadatan selesai sebelum memulai pengujian beban kerja.

Setelah proses CDH 5.16.3 selesai, CDP Private Cloud Base 7.1 HBase2 telah diinstal bersih dan data dibuat ulang pada cluster yang sama. Beban kerja CDP Private Cloud Base 7.1 YCSB kemudian dijalankan untuk mendapatkan waktu pengujian. Sebelum setiap beban kerja berjalan, kami menginisialisasi tabel HBase yang digunakan oleh YCSB. Cuplikan utable_snap yang dapat digunakan pengguna dibuat dan diterapkan sebelum setiap proses.

Setiap beban kerja yang diuji dijalankan 3 kali masing-masing selama 15 menit untuk mengukur throughput*. Hasil yang ditampilkan adalah rata-rata yang diambil dari 3 tes.

*Throughput (ops/sec) =Jumlah operasi per detik

CDP Private Cloud Base 7.1 mencakup HBase2 dan CDH 5.16.3 mencakup HBase1. Baik CDP Private Cloud Base 7.1 dan CDH5 telah menginstal JDK 8. CDP Private Cloud Base 7.1 mendukung JDK11 dan CDP Private Cloud Base 7.1 diperbarui untuk menggunakan JDK 11 untuk pengujian YCSB, CDH 5.13.3 dijalankan dengan JDK 8 (1.8.0_141)

Uji konfigurasi

  • YCSB Versi 0.17.0
  • Versi Pengikatan YCSB hbase2(CDP-CD 7.1) dan hbase1(CDH 5) 
  • Klien YCSB menggunakan 2
  • Utas YCSB per klien 20
  • Ukuran data
    • Tabel YCSB dengan skala @1 TB
    • Jumlah total catatan dalam tabel YCSB 1.000.000.000 (1 TB), setiap catatan adalah 1 KB
    • Jumlah Wilayah di tabel YCSB 250, dengan kluster simpul 5+1, kira-kira 50 wilayah per server wilayah
    • Ruang penyimpanan Wilayah Rata-rata yang digunakan per ukuran server 290G
  • Server Wilayah HBase dikonfigurasi dengan heap 32 GB 
  • Hanya cache L1 dengan LruBlockCache yang digunakan dengan ukuran cache 12,3 GB
  • Persen hit cache L1 yang diamati selama dijalankan di server wilayah adalah 85%
  • L2 off heap cache tidak dikonfigurasi di cluster

Konfigurasi kluster

  • Kluster yang digunakan : 6 node cluster (1 master + 5 server wilayah)
  • Deskripsi: Dell PowerEdge R430, 20c/40t Xenon e5-2630 v4 @ 2.2Ghz, Ram 128GB, disk 4-2TB
  • Keamanan: Tidak ada yang dikonfigurasi (Tanpa Kerberos)

Versi Cloudera dibandingkan

Versi C7 :CDP Private Cloud Base 7.1.0

Versi C5: CDH5.16.3

JDK yang digunakan:JDK 8 ( 1.8.0_141) dan JDK 11 (11.0.6)

Berdasarkan pengujian kami (hasil di atas), pelanggan yang ingin meningkatkan versi dari CDH 5 ke CDP 7 akan mengharapkan peningkatan kinerja untuk beban kerja serupa dibandingkan dengan yang mereka dapatkan saat ini.

Pelajari lebih lanjut DB Operasional Cloudera di sini


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. How-to:Gunakan Antarmuka Apache HBase REST, Bagian 1

  2. Pengantar Federasi &Arsitektur HDFS

  3. Penggabungan wilayah HBase

  4. Pengantar Snapshot Apache HBase, Bagian 2:Penyelaman Lebih Dalam

  5. Penyetelan Performa di MapReduce untuk Peningkatan Performa