HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Perhentian Berikutnya – Membangun Pipa Data dari Ujung ke Wawasan

Ini adalah bagian 2 dari seri blog ini. Anda dapat membaca bagian 1, di sini: Transformasi Digital adalah Perjalanan Data Dari Ujung ke Wawasan

Seri blog ini mengikuti data manufaktur, operasi, dan penjualan untuk produsen kendaraan yang terhubung saat data melewati tahapan dan transformasi yang biasanya dialami di perusahaan manufaktur besar yang terdepan dalam teknologi saat ini. Blog pertama memperkenalkan perusahaan manufaktur kendaraan terhubung tiruan, The Electric Car Company (ECC), untuk mengilustrasikan jalur data manufaktur melalui siklus hidup data. Untuk mencapai hal ini, ECC memanfaatkan Cloudera Data Platform (CDP) untuk memprediksi peristiwa dan memiliki pandangan top-down dari proses manufaktur mobil di dalam pabriknya yang berlokasi di seluruh dunia.

Setelah menyelesaikan langkah Pengumpulan Data di blog sebelumnya, langkah ECC berikutnya dalam siklus hidup data adalah Pengayaan Data. ECC akan memperkaya data yang dikumpulkan dan akan membuatnya tersedia untuk digunakan dalam analisis dan pembuatan model nanti dalam siklus hidup data. Di bawah ini adalah seluruh rangkaian langkah dalam siklus hidup data, dan setiap langkah dalam siklus hidup akan didukung oleh entri blog khusus (lihat Gambar 1):

  1. Pengumpulan Data – penyerapan dan pemantauan data di edge (apakah edge berupa sensor industri atau orang di ruang pamer kendaraan)
  2. Pengayaan Data – pemrosesan pipa data, agregasi, dan manajemen untuk menyiapkan data untuk analisis lebih lanjut
  3. Pelaporan – memberikan wawasan bisnis (analisis dan perkiraan penjualan, penganggaran sebagai contoh)
  4. Menyajikan – mengendalikan dan menjalankan operasi bisnis penting (operasi dealer, pemantauan produksi) 
  5. Analisis Prediktif – analitik prediktif berdasarkan AI dan pembelajaran mesin (pemeliharaan prediktif, pengoptimalan inventaris berbasis permintaan sebagai contoh)
  6. Keamanan &Tata Kelola – seperangkat teknologi keamanan, manajemen, dan tata kelola terintegrasi di seluruh siklus hidup data

Gbr. 1 Siklus hidup data perusahaan

Tantangan Pengayaan Data

ECC membutuhkan pandangan yang komprehensif dan pemahaman yang kuat tentang semua data yang terkait dengan manufaktur, operasi dealer, dan pengiriman kendaraan mereka. Mereka juga perlu dengan cepat mengidentifikasi masalah dengan data seperti sensor operasional yang memutar data yang mungkin termasuk lonjakan suhu palsu yang disebabkan oleh penghentian mesin yang tidak direncanakan atau start-up yang tiba-tiba. Data yang tidak ada hubungannya dengan proses ketika pekerja pemeliharaan melepaskan sensor dari tangki pencelupan asam saat melakukan inspeksi rutin, misalnya, tidak boleh diperhitungkan dalam analisis.

Selain itu, ECC menghadapi tantangan data berikut yang perlu ditangani agar berhasil menggerakkan manufaktur motor melalui rantai pasokannya. Tantangan data ini meliputi:

  • Mengambil data dalam berbagai format dari berbagai sumber: Pipa rekayasa data memerlukan data yang akan dibawa dari berbagai sumber dan dalam berbagai format. Baik data bersumber dari sensor yang ada di lini produksi, mendukung operasi manufaktur, atau data ERP yang mengendalikan rantai pasokan, semuanya harus disatukan untuk analisis lebih lanjut.
  • Memfilter data yang berlebihan atau tidak relevan: Menghapus duplikat atau data yang tidak valid, dan memastikan keakuratan data yang tersisa, adalah langkah kunci dalam mempersiapkan data untuk digunakan lebih lanjut dalam analisis prediktif lanjutan.
  • Kemampuan untuk mengidentifikasi proses yang tidak efisien: ECC memerlukan kemampuan untuk melihat proses data apa yang menghabiskan waktu dan sumber daya paling banyak, sehingga memudahkan untuk menargetkan bagian-bagian pipeline yang berkinerja buruk untuk mempercepat proses secara keseluruhan.
  • Kemampuan untuk memantau semua proses dari satu panel: ECC membutuhkan sistem terpusat yang memungkinkan mereka untuk memantau semua proses data yang sedang berlangsung serta jalan untuk memperluas infrastruktur mereka saat ini sambil menjaga transparansi.

Kumpulan data yang dikurasi dan berkualitas adalah tulang punggung dari setiap inisiatif analitik tingkat lanjut. Untuk mencapai hal ini, kerangka kerja rekayasa data harus digunakan untuk memungkinkan pembangunan semua perpipaan dan pemipaan yang diperlukan untuk memindahkan, memanipulasi, dan mengelola data dari bagian-bagian kendaraan yang berbeda dalam siklus hidup data.

Membangun Pipeline Menggunakan Cloudera Data Engineering

Sebelum data diperkaya dan dibahas di blog pertama, aliran data TI dan PL yang dikumpulkan dari pabrik akan dibersihkan, dimanipulasi, dan dimodifikasi. ID pabrik, ID mesin, stempel waktu, nomor komponen, dan nomor seri dapat ditangkap dari kode QR yang tercetak pada motor listrik. Saat motor dirakit menjadi kendaraan yang terhubung, data diambil seperti tipe model, VIN, dan biaya kendaraan dasar.

Setelah kendaraan dijual, informasi penjualan seperti nama pelanggan, informasi kontak, harga jual akhir, dan lokasi pelanggan dicatat secara terpisah. Data ini akan sangat penting untuk menghubungi pelanggan untuk setiap penarikan potensial atau pemeliharaan preventif yang ditargetkan. Data geolokasi juga disimpan, yang akan membantu memetakan lokasi pelanggan ke garis lintang dan garis bujur untuk lebih memahami di mana lokasi motor ini setelah dijual di dalam kendaraan.

ECC akan menggunakan Cloudera Data Engineering (CDE) untuk mengatasi tantangan data di atas (lihat Gambar 2). CDE kemudian akan membuat data tersebut tersedia untuk Cloudera Data Warehouse (CDW), di mana data tersebut akan tersedia untuk analitik tingkat lanjut dan laporan intelijen bisnis. Langkah-langkah CDE diuraikan di bawah ini.

Gbr. 2 Jalur pengayaan data ECC

LANGKAH 1:Filter dan pisahkan data

Langkah pertama dalam menggunakan CDE adalah membuat pekerjaan PySpark yang membawa data dari berbagai sumber "mentah" ini dari langkah 1. Ini adalah kesempatan untuk memfilter data yang tidak relevan seperti pelanggan di bawah 16 tahun, misalnya, sejak itu biasanya usia mengemudi minimum. Data duplikat dan data lain yang tidak relevan juga dapat difilter atau dipisahkan.

LANGKAH 2:Gabungkan data

Untuk menggabungkan semua data, CDE akan menghubungkan tautan umum bersama-sama. Pertama, data penjualan mobil akan diikat ke pelanggan yang membeli mobil untuk mendapatkan metadata pelanggan, seperti informasi kontak, usia, gaji, dll. Data geolokasi kemudian akan digunakan untuk mendapatkan informasi lokasi yang lebih tepat untuk pelanggan , yang akan membantu dalam pemetaan motor nanti. Data pemasangan suku cadang akan digunakan untuk mengidentifikasi nomor seri untuk setiap motor yang dipasang di mobil pelanggan. Terakhir, data pabrik akan disejajarkan agar sesuai dengan nomor seri motor yang akan mengidentifikasi pabrik, mesin, dan kapan setiap motor tertentu dibuat.

LANGKAH 3:Kirim data ke Cloudera Data Warehouse

Setelah semua data disatukan dalam tabel yang diperkaya, perintah Apache Spark sederhana akan menulis data ke dalam tabel baru di Cloudera Data Warehouse. Ini akan membuat data dapat diakses oleh ilmuwan data mana pun yang mungkin ingin mengaksesnya untuk melakukan beberapa analisis tambahan.

LANGKAH 4:Buat dasbor dan laporan visualisasi data

Dengan semua data di satu tempat, laporan kini dapat dibuat yang memungkinkan karyawan membuat keputusan yang lebih tepat dan membuka kemampuan yang tidak ada. Peta panas dapat dibuat untuk melacak lokasi motor dan menghubungkan masalah apa pun dengan lokasi geografis potensial, seperti kegagalan karena dingin atau panas yang ekstrem. Data ini juga dapat digunakan untuk melacak dengan tepat pelanggan yang mungkin terpengaruh jika ada masalah di pabrik tertentu dalam rentang waktu tertentu, sehingga memudahkan untuk melacak pelanggan yang mungkin memerlukan penarikan kembali atau pemeliharaan preventif.

Kesimpulan

Cloudera Data Engineering memungkinkan ECC untuk membangun saluran yang dapat menghubungkan data manufaktur dan suku cadang, jenis penggunaan pelanggan, kondisi lingkungan, informasi penjualan, dan banyak lagi untuk meningkatkan kepuasan pelanggan dan keandalan kendaraan. ECC mencapai tujuannya dan mengatasi tantangan mereka dengan melacak data yang terkait dengan pembuatan motornya dan mendapatkan keuntungan dengan cara berikut:

  • ECC mempercepat waktu ke nilai dengan mengatur dan mengotomatiskan jalur pipa data untuk memberikan kumpulan data yang dikurasi dan berkualitas secara aman dan transparan dari berbagai sumber data.
  • ECC dapat mengidentifikasi data yang relevan dan memfilter data yang berlebihan dan duplikat.
  • ECC mampu mencapai pemantauan jalur pipa data dari satu panel, sementara berada dalam posisi yang diperingatkan untuk mengetahui masalah lebih awal melalui pemecahan masalah visual untuk menyelesaikan masalah dengan cepat sebelum bisnis terpengaruh.

Cari blog berikutnya yang akan mempelajari Pelaporan yang akan menunjukkan bagaimana insinyur ECC menjalankan kueri ad-hoc di CDW terhadap data yang dikurasi ini serta menggabungkan data ke sumber lain yang relevan di dalam gudang data perusahaan. CDW memfasilitasi menyatukan semua data dan menyediakan alat visualisasi data bawaan untuk beralih dari hasil kueri ke dasbor. Nantikan yang berikutnya!

Sumber Daya Pengumpulan Data Lebih Banyak

Untuk melihat semua ini beraksi, silakan klik tautan terkait di bawah ini untuk mempelajari pengayaan data lebih lanjut:

  • Video – Jika Anda ingin melihat dan mendengar bagaimana ini dibuat, lihat video di tautan.
  • Tutorial – Jika Anda ingin melakukannya dengan kecepatan Anda sendiri, lihat panduan terperinci dengan tangkapan layar dan petunjuk baris demi baris tentang cara menyiapkan dan menjalankannya.
  • Meetup – Jika Anda ingin berbicara langsung dengan pakar dari Cloudera, silakan bergabung dengan meetup virtual untuk melihat presentasi streaming langsung. Akan ada waktu untuk tanya jawab langsung di akhir.
  • Pengguna – Untuk melihat lebih banyak konten teknis khusus untuk pengguna, klik tautannya.

  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Pola Arsitektur untuk Pemrosesan Data Hampir Real-Time dengan Apache Hadoop

  2. Keamanan Basis Data Operasional – Bagian 1

  3. Pengujian kinerja HBase menggunakan YCSB

  4. Masalah File Kecil

  5. Di dalam Arsitektur Penyerapan Data Hampir Real-Time di Santander