HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Menggunakan Rekayasa Data Cloudera untuk Menganalisis Data Program Perlindungan Gaji

Program Perlindungan Gaji (PPP) diterapkan oleh pemerintah federal AS untuk memberikan insentif langsung bagi bisnis untuk mempertahankan karyawan mereka dalam daftar gaji, terutama selama pandemi Covid-19. PPP membantu bisnis yang memenuhi syarat mempertahankan tenaga kerja mereka serta membantu membayar biaya bisnis terkait. Data dari situs web Departemen Keuangan AS menunjukkan perusahaan mana yang menerima pinjaman PPP dan berapa banyak pekerjaan yang dipertahankan. Departemen Keuangan AS menyetujui sekitar satu juta pinjaman KPS di seluruh AS.

Analisis data ini menghadirkan tiga tantangan. Pertama, ukuran datanya signifikan. Jumlah waktu untuk menarik, mengkurasi, mengubah, mengambil, dan melaporkan data tersebut memakan waktu yang lama. Kedua, kumpulan data kemungkinan akan berkembang, yang akan menghabiskan waktu dan sumber daya pengembangan tambahan. Akhirnya, dalam proses multi-tahap seperti ini, ada kemungkinan banyak hal akan rusak. Memiliki kemampuan untuk dengan cepat menentukan kesalahan atau hambatan akan membantu memenuhi SLA secara konsisten.

Blog ini menggambarkan bagaimana Cloudera Data Engineering (CDE), menggunakan Apache Spark, dapat digunakan untuk menghasilkan laporan berdasarkan data PPP sambil mengatasi setiap tantangan yang diuraikan di atas.

Tujuan

Skenario tiruan untuk Badan Anggaran Legislatif Texas (LBB) disiapkan di bawah ini untuk membantu insinyur data mengelola dan menganalisis data KPS. Tujuan utama dari insinyur data ini adalah untuk memberikan dua laporan akhir kepada LBB:

  • Laporan 1:Rincian semua kota di Texas yang mempertahankan pekerjaan
  • Laporan 2:Rincian jenis perusahaan yang mempertahankan pekerjaan

Rekayasa Data Cloudera (CDE)

Di sinilah Cloudera Data Engineering (CDE) yang menjalankan Apache Spark dapat membantu. CDE adalah salah satu layanan di Cloudera Data Platform (CDP) yang memungkinkan insinyur data membuat, mengelola, dan menjadwalkan pekerjaan Apache Spark, sekaligus menyediakan alat yang berguna untuk memantau kinerja pekerjaan, mengakses file log, dan mengatur alur kerja melalui Apache Airflow. Apache Spark adalah kerangka kerja pemrosesan data yang mampu menjalankan pemrosesan data skala besar dengan cepat.

Departemen Keuangan AS menyediakan dua kumpulan data yang berbeda, satu untuk pinjaman yang disetujui lebih dari $150rb dan satu untuk pinjaman yang disetujui di bawah $150rb. Untuk menghasilkan dua laporan akhir untuk LBB, langkah-langkah ini diikuti (lihat Gambar 1).

  • Langkah pertama adalah memuat dua set data terpisah ke dalam bucket S3.
  • Tugas Spark telah dibuat untuk setiap kumpulan data guna menarik dan memfilter data dari bucket S3.
  • Dua pekerjaan Spark ini mengubah dan memuat data bersih ke dalam gudang data Hive untuk pengambilan.
  • Tugas Spark ketiga telah dibuat untuk memproses data dari gudang data Hive untuk membuat dua laporan.

Setelah pekerjaan berjalan selesai, CDE memberikan representasi grafis dari berbagai tahapan dalam setiap pekerjaan Spark (lihat Gambar 2). Hal ini memungkinkan insinyur data untuk dengan mudah melihat bagian pekerjaan mana yang berpotensi menghabiskan waktu paling banyak, memungkinkan mereka untuk dengan mudah memperbaiki dan menyempurnakan kode mereka agar dapat memenuhi SLA pelanggan dengan baik.

Gambar 1:Perjalanan data untuk menghasilkan dua laporan akhir.

Gbr. 2:Representasi grafis CDE dari berbagai tahapan Spark.

Hasil

Tujuan utama untuk menghasilkan dua laporan akhir dari catatan satu juta pelamar yang disetujui terpenuhi. Ringkasan grafis dari laporan pertama (lihat Gambar 3) menunjukkan 10 sampel teratas dari jumlah pekerjaan yang dipertahankan per kota di Texas, dan laporan kedua (lihat Gambar 4) menunjukkan 5 sampel teratas dari jumlah pekerjaan yang dipertahankan menurut jenis perusahaan. Dengan laporan ini, Badan Anggaran Legislatif Texas, misalnya, dapat menyimpulkan bahwa kota dengan jumlah retensi pekerjaan per kapita paling sedikit mungkin memerlukan sumber daya untuk mengurangi dampak ekonomi apa pun.

Gambar 3:10 kota teratas yang mempertahankan pekerjaan terbanyak, Negara Bagian Texas, 2020

Gambar 4:5 jenis perusahaan teratas yang mempertahankan pekerjaan terbanyak, Negara Bagian Texas, 2020

Langkah Selanjutnya

Untuk melihat semua ini beraksi, silakan klik tautan di bawah ke beberapa sumber berbeda yang menunjukkan proses yang telah dibuat.

  • Video – Jika Anda ingin melihat dan mendengar bagaimana ini dibuat, lihat video di link.
  • Tutorial – Jika Anda ingin melakukannya sesuai keinginan Anda, lihat panduan mendetail dengan tangkapan layar dan petunjuk baris demi baris tentang cara menyiapkan dan menjalankannya.
  • Meetup – Jika Anda ingin berbicara langsung dengan para ahli dari Cloudera, silakan bergabung dalam pertemuan virtual untuk melihat presentasi streaming langsung. Akan ada waktu untuk tanya jawab langsung di akhir.
  • Halaman Pengguna CDP – Untuk mempelajari tentang sumber daya CDP lain yang dibuat untuk pengguna, termasuk video tambahan, tutorial, blog, dan acara, klik tautannya.

  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. 20 Perbedaan Penting Antara Hadoop 2.x vs Hadoop 3.x

  2. Apa yang Harus dan Tidak Boleh Dilakukan Apache HBase

  3. HDFS NameNode Ketersediaan Tinggi di Hadoop

  4. Memperkenalkan kebijakan partisi pemadatan Apache HBase Medium Object Storage (MOB)

  5. tabel sampel HBase