HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Singkatnya, Replikasi Basis Data Operasional Cloudera

Dalam posting blog sebelumnya ini kami memberikan gambaran tingkat tinggi dari Plugin Replikasi Cloudera, menjelaskan bagaimana hal itu membawa replikasi lintas platform dengan sedikit konfigurasi. Dalam posting ini, kami akan membahas bagaimana plugin ini dapat diterapkan di cluster CDP dan menjelaskan bagaimana plugin memungkinkan otentikasi yang kuat antara sistem yang tidak berbagi kepercayaan otentikasi bersama.

Menggunakan Plugin Replikasi Basis Data Operasional

Plugin Replikasi Basis Data Operasional tersedia baik sebagai plugin mandiri maupun diinstal secara otomatis melalui Cloudera Replication Manager. Plugin ini memungkinkan pelanggan untuk mengatur replikasi data HBase yang hampir real-time dari klaster CDH/HDP/AWS EMR/Azure HDInsight ke CDP Private Cloud Base dan/atau CDP Operational Database (COD) di Public Cloud. Ini juga diterapkan secara otomatis saat menggunakan Cloudera Replication Manager untuk mengatur replikasi antara CDP Private Cloud Base dan COD atau antara instance COD di Public Cloud. Cloudera Replication Manager juga memungkinkan untuk menggabungkan fitur snapshot HBase bersama dengan plugin ini untuk juga mengelola replikasi data yang sudah ada sebelumnya dalam satu penyiapan.

Untuk petunjuk instalasi, silakan lihat kebijakan replikasi HBase topik di Manajer Replikasi dokumentasi resmi.

Untuk versi CDH/HDP lawas, plugin disediakan sebagai paket untuk dipasang di cluster lawas saja.

  • CDH 5.x
  • CDH 6.x
  • HDP 2.6
  • HDP 3.1
  • EMR 5.x &6.x

Paket adalah versi yang dikunci dengan binari versi tertentu. Untuk setiap versi yang disebutkan di atas, itu harus diperoleh berdasarkan per-cluster. Hubungi tim penjualan Cloudera Anda jika Anda tertarik untuk mendapatkannya.

Detail Implementasi

Hambatan diselesaikan dengan Plugin Replikasi Basis Data Operasional adalah otentikasi timbal balik antara cluster di bawah konfigurasi keamanan yang berbeda. Mengingat posting blog sebelumnya ini, replikasi default HBase mengharuskan kedua cluster tidak dikonfigurasi untuk keamanan sama sekali, atau keduanya dikonfigurasi dengan keamanan. Dalam kasus yang terakhir, kedua cluster harus berada di ranah kerberos yang sama, atau memiliki otentikasi lintas ranah yang ditetapkan pada sistem kerberos. Ini akan menjadi tantangan ekstra dalam konteks CDP, di mana setiap lingkungan berjalan pada ranah keamanan mandiri. Untuk memahami ini lebih detail, kita perlu meninjau bagaimana keamanan Apache HBase diimplementasikan.

Menggunakan SASL untuk membangun kepercayaan

Dalam replikasi HBase, RegionServers di kluster sumber menghubungi RegionServers di kluster target melalui koneksi RPC. Ketika keamanan diaktifkan, otentikasi dilakukan pada fase pembentukan koneksi RPC menggunakan kerangka otentikasi sederhana dan lapisan keamanan (SASL). HBase sudah menyediakan bawaan berikut ini Otentikasi SASL mekanisme:kerberos, intisari dan sederhana. Saat kerberos diaktifkan, kredensial dari cluster sumber akan diharapkan oleh cluster target, yang kemudian akan memvalidasi kredensial ini terhadap KDC-nya sendiri, menggunakan SASL kerberos mekanisme. Ini bergantung pada kerberos GSSAPI implementasi untuk mengautentikasi kredensial yang diberikan terhadap cluster target KDC, oleh karena itu kepercayaan untuk prinsip cluster sumber harus telah diterapkan di tingkat sistem kerberos, dengan memiliki kedua kredensial cluster di ranah yang sama, atau membuat cluster target KDC mempercayai kredensial dari alam cluster sumber (pendekatan yang biasa dikenal sebagai lintas alam autentikasi).

Memperluas autentikasi HBase SASL 

Untungnya, SASL dirancang untuk memungkinkan implementasi otentikasi khusus. Itu berarti solusi berbasis SASL dapat dirancang, jika mekanisme SASL tambahan dapat dicolokkan ke rangkaian opsi bawaan yang disebutkan di atas. Dengan tujuan itu, Cloudera mengusulkan pemfaktoran ulang lapisan RPC HBase, yang telah ditinjau dan diterima oleh komunitas Apache HBase di HBASE-23347 .

Mekanisme SASL yang Dapat Dicolokkan

Dengan perubahan yang diperkenalkan oleh HBASE-23347 , mekanisme otentikasi SASL tambahan dapat ditentukan melalui konfigurasi HBase untuk digunakan oleh lapisan RPC. Koneksi RPC yang masuk menentukan jenis SASL tertentu di header, kemudian server RPC memilih implementasi spesifik untuk melakukan otentikasi yang sebenarnya:

Plugin Replikasi Basis Data Operasional mengimplementasikan mekanisme SASL kustomnya, memungkinkan kluster di alam kerberos yang berbeda untuk berkomunikasi dengan upaya konfigurasi yang mulus (tanpa perlu kerberos lintas alam ). Ini memperluas replikasi HBase sehingga sumber membuat token SASL dari Plugin Replikasi jenis kustom, dengan kredensial dari pengguna mesin yang telah ditentukan sebelumnya pada cluster COD target. Jenis pengguna ini dapat dengan mudah dibuat dari Cloudera Management Console UI, dan kemudian disebarkan ke cluster COD yang mendasari otoritas otentikasi kerberos. Petunjuk mendetail tentang membuat pengguna mesin replikasi tercakup dalam bagian langkah-langkah pra-persyaratan dari dokumentasi Cloudera Replication Manager.

Saat server RPC di target membaca token dan mengidentifikasinya sebagai Plugin Replikasi jenis, kredensial terkait diuraikan dari token dan digunakan untuk autentikasi.

Plugin Replikasi Basis Data Operasional menggunakan otentikasi PAM untuk memvalidasi kredensial pengguna mesin. Cluster COD selalu dilengkapi dengan otentikasi PAM terhadap domain keamanan FreeIPA lingkungan CDP.

Mengamankan Kredensial Pengguna Mesin

Masalah kritis dalam solusi ini adalah bahwa cluster sumber harus mendapatkan kredensial dari pengguna mesin cluster target. Untuk alasan yang jelas, itu tidak boleh diekspos dengan cara apa pun pada konfigurasi sumber. Kredensial ini juga dikirim melalui kabel dalam token SASL dalam koneksi RPC, sehingga harus dienkripsi sebelum transmisi. Plugin Replikasi menyediakan alatnya sendiri untuk menghasilkan jceks file yang menyimpan kredensial pengguna mesin, dienkripsi. Setelah file ini dibuat, itu harus disalin ke kedua cluster dan dibuat dapat dibaca oleh hbase pengguna saja. Diagram di bawah ini menunjukkan gambaran umum penerapan Plugin Replikasi Basis Data Operasional komponen yang terintegrasi ke kelas replikasi HBase standar dalam konteks RegionServers. Kotak merah muda mewakili replikasi dan kode koneksi RPC yang sudah disediakan oleh HBase, sedangkan kotak kuning menunjukkan lapisan abstraksi yang diperkenalkan dalam HBASE-23347. Terakhir, kelas oranye menyoroti artefak yang relevan yang mengimplementasikan Plugin Replikasi Basis Data Operasional logika.

Kesimpulan

Replikasi adalah alat yang berharga untuk menerapkan solusi migrasi DR dan DC untuk HBase. Ini memiliki beberapa peringatan, seperti yang ditunjukkan di sini, ketika berhadapan dengan konfigurasi keamanan cluster. Namun, kemampuan untuk memigrasikan data dari penerapan "on-prem" saat ini ke cluster CDP di cloud sangat penting. Plugin Replikasi Database Operasional Cloudera menghadirkan fleksibilitas saat mengintegrasikan cluster yang aman, bersama dengan pemeliharaan yang lebih baik untuk integrasi keamanan ini, karena sepenuhnya diimplementasikan pada tingkat HBase, berbeda dengan kerberos lintas alam, yang memerlukan perubahan pada definisi sistem kerberos, seringkali merupakan tanggung jawab tim yang berbeda, dengan kebijakan pembatasannya sendiri.

Cobalah template Database Operasional di Platform Data Cloudera (CDP)!


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Tolok ukur Apache HBase vs Apache Cassandra pada SSD di Lingkungan Cloud

  2. Mesin Pemroses Data Besar – Yang mana yang saya gunakan?:Bagian 1

  3. Transformasi Digital adalah Perjalanan Data Dari Ujung ke Wawasan

  4. tabel sampel HBase

  5. Gudang Data Generasi Berikutnya di Santander UK