HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Rilis CDH 6.2:Apa yang baru di HBase

Cloudera baru-baru ini meluncurkan CDH 6.2 yang mencakup dua fitur utama baru di Apache HBase:

  1. Replikasi serial
  2. Cache bucket sekarang mendukung memori Intel Optane

Replikasi serial

HBase memiliki mekanisme replikasi asinkron canggih yang mendukung topologi kompleks saat ini yang mencakup topologi round-robin global, dua arah, span-in dan span-out.

Kemampuan replikasi ini, hingga saat ini, memberikan konsistensi akhir — yang berarti bahwa urutan pembaruan yang direplikasi tidak harus sama dengan urutan penerapannya ke database. Meskipun ini berfungsi untuk banyak pelanggan, urutan pembaruan pada titik akhir replikasi penting untuk banyak kasus penggunaan.

Fitur replikasi serial memberikan konsistensi garis waktu untuk replikasi. Dengan kata lain, urutan pembaruan dipertahankan melalui replikasi ke cluster tujuan. Ada sedikit biaya untuk konsistensi ini dan dalam beberapa kasus, pengguna mungkin menemukan bahwa replikasi sedikit lebih lambat daripada pendekatan replikasi default.

Konfigurasi opsi ini cukup sederhana (setel flag SERIAL ke true) dan dapat diterapkan pada saat penyiapan replikasi atau kapan saja setelahnya pada level tabel, level namespace, atau untuk rekan yang mereplikasi semua tabel di HBase.

Tembolok ember HBase

Cache ember HBase adalah cache 2 lapis yang dirancang untuk meningkatkan kinerja siap pakai di berbagai kasus penggunaan. Lapisan pertama berada di tumpukan Java dan lapisan kedua cache dapat berada di sejumlah lokasi berbeda termasuk:memori off-heap, memori Intel Optane, SSD, atau HDD.

Konfigurasi yang direkomendasikan untuk lapisan kedua cache bucket untuk sebagian besar pelanggan tidak sesuai. Deployment dalam konfigurasi ini dapat meningkatkan ukuran memori yang jauh lebih besar daripada yang dimungkinkan dengan cache on-heap bawaan, karena mesin off-heap menghindari tekanan pengumpulan sampah JVM. Ukuran cache yang lebih besar memberikan peningkatan kinerja membaca HBase secara signifikan.

Dimulai dengan CDH 6.2, Cloudera kini menyertakan kemampuan untuk menggunakan Memori Optane Intel yang baru dirilis sebagai tujuan alternatif untuk cache bucket tingkat ke-2. Konfigurasi penerapan ini memungkinkan Anda memiliki ~3x ukuran cache dengan biaya konstan (dibandingkan dengan cache off-heap pada DRAM). Itu memang menimbulkan beberapa latensi tambahan dibandingkan dengan konfigurasi off-heap tradisional, tetapi pengujian kami menunjukkan bahwa dengan mengizinkan lebih banyak (jika tidak semua) set kerja data agar sesuai dengan cache, pengaturan menghasilkan peningkatan kinerja bersih saat data akhirnya disimpan di HDFS (menggunakan HDD).

Saat menerapkan ke cloud atau menggunakan penyimpanan objek lokal, peningkatan kinerja akan lebih baik karena penyimpanan objek cenderung sangat mahal untuk pembacaan acak sejumlah kecil data. Tabel di bawah memberikan gambaran biaya, ukuran, dan pertukaran latensi yang diperlukan saat merencanakan cara mengonfigurasi tingkat kedua cache bucket.

Penyimpanan $ Biaya / GB Ukuran (biaya konstan) Latensi
DRAM di luar tumpukan 35 1,0 GB ~70 ns
Intel Optane¹ 13 2,7 GB 180-340 ns
SSD 0,15 233.3 GB 10-100 s
HDD² 0,027 1,3TB 4-10 md
Penyimpanan objek³ 0,006 5.8TB 10-100 md

Baca blog ini untuk mempelajari lebih lanjut tentang kolaborasi Intel dan Cloudera dalam memanfaatkan Memori Persisten Optane DC untuk peningkatan kinerja.

Referensi:

  1. Ikhtisar Kinerja Memori Persisten Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) – menit 6:53,
    https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
    https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance,39007.html
  2. https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
    https://www.westerndigital.com/ produk/data-center-drives#hard-disk-hdd
  3. https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf

  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Hadoop MapReduce Tutorial untuk Pemula

  2. Di dalam Arsitektur Penyerapan Data Hampir Real-Time Santander (Bagian 2)

  3. How-to:Gunakan Antarmuka Apache HBase REST, Bagian 1

  4. Jalur Tulis Apache HBase

  5. Bagaimana HBase di CDP Dapat Memanfaatkan S3 Amazon