HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Cara menerapkan model ML ke produksi

Saat ini, banyak perusahaan, termasuk banyak pelanggan Cloudera, bereksperimen dengan pembelajaran mesin (ML) dan membuat model untuk mengatasi berbagai tantangan. Saat ini, banyak model digunakan untuk dasbor dan tujuan BI internal, sekelompok kecil pemimpin perusahaan yang berkembang pesat mulai menyadari potensi ML untuk otomatisasi bisnis, pengoptimalan, dan inovasi produk. Dalam posting blog ini, kita akan membahas yang terakhir—khususnya, bagaimana lini bisnis mengarahkan kembali ilmuwan data mereka untuk bekerja dengan insinyur aplikasi dan pemangku kepentingan lainnya untuk memecahkan masalah bisnis waktu nyata. Kasus penggunaan ini bervariasi di seluruh industri dan kekritisan bisnis dan semakin luas dan mendalam seiring perusahaan mempelajari seberapa banyak yang dapat dilakukan dengan data yang mereka miliki.

Contoh kasus penggunaan ini meliputi:

  • Cerner, pemimpin layanan kesehatan, menggunakan data sensor dari pasien untuk mengidentifikasi Sepsis menggunakan model pembelajaran mesin dan secara proaktif memberi tahu dokter sehingga mereka dapat mendiagnosis dan mengobati lebih lanjut dalam waktu 6 jam setelah penyakit ini bisa diobati
  • Layanan keuangan perusahaan menggunakan pembelajaran mesin untuk mendeteksi transaksi penipuan secara waktu nyata dan menggunakan umpan balik waktu nyata dari pelanggan untuk melakukan pembelajaran penguatan 
  • Perusahaan kereta api memiliki kereta barang jarak jauh melewati stasiun khusus tempat mereka mengambil ribuan gambar beresolusi tinggi dan menerapkan pembelajaran mesin untuk mengidentifikasi bagian yang rusak. Mereka kemudian menjadwalkan kereta untuk tiba di fasilitas perbaikan bersama dengan suku cadang dan teknisi — membuat perhentian serupa dengan perhentian formula satu
  • Utilitas menggunakan data smart-meter untuk mengidentifikasi potensi masalah di jaringan distribusi listrik dan secara proaktif menjadwalkan pemeliharaan
  • Perusahaan media menggunakan pembelajaran mesin untuk mengidentifikasi dan menyediakan konten yang relevan secara real time berdasarkan apa yang Anda lihat
  • Teknologi iklan &perusahaan e-niaga telah menggunakan kemampuan ini paling lama untuk memastikan relevansi penawaran mereka dengan berbagai audiens target

Setelah masalah diidentifikasi dan keputusan dibuat untuk berinvestasi dalam solusi bisnis, ilmuwan data akan mempelajari data menggunakan berbagai alat ML untuk membuat algoritme dan bekerja dengan insinyur perangkat lunak untuk membangun aplikasi yang dapat memanfaatkan algoritme tersebut.

Tergantung pada kebutuhan mereka, data mungkin berada di gudang data mereka atau di dalam database operasional mereka. Banyak pelanggan Cloudera akan menggunakan Spark &​​SparkMLlib di dalam Cloudera Machine Learning (CML) untuk melatih algoritme mereka. Menggunakan CML memungkinkan alur kerja yang mulus untuk mengoperasionalkan model dalam satu platform yang aman, dan diatur yang dibuat untuk alur kerja ML yang lebih cepat. Untuk mempelajari lebih lanjut tentang pendekatan kami dalam mengembangkan alur kerja produksi di CML, bergabunglah dengan webinar ini.

Algoritme pelatihan dapat dilakukan di database operasional 

Salah satu alasan utama menggunakan gudang data untuk algoritme pelatihan adalah untuk menghindari penambahan beban ke database operasional yang ada dan dengan demikian memengaruhi SLA dari beban kerja operasional. Namun, dalam kasus Database Operasional (OpDB) Cloudera, pengguna dapat menetapkan kuota dan batasan jumlah sumber daya dan beban yang dapat dimasukkan pengguna pembelajaran mesin ke sistem. Ini melindungi beban kerja operasional sekaligus memungkinkan ilmuwan data menggunakan data waktu nyata tanpa mengeluarkan biaya untuk membuat salinan kedua.

Saat menggunakan OpDB Cloudera, pelanggan sering menggunakan Spark untuk melakukan kueri data dalam database operasional sehingga tidak perlu membongkar data sebelum menjelajahinya dan menggunakannya untuk pelatihan untuk tujuan pembelajaran mesin.

Algoritme ML harus memenuhi persyaratan ketersediaan, ketahanan, dan respons level aplikasi 

Pengembangan &pelatihan algoritme berbasis ML biasanya dilakukan bersamaan dengan pengembangan aplikasi (dengan asumsi bahwa fakta bahwa ini dapat dilakukan telah ditetapkan). Persyaratan aplikasi yang umum untuk database yang mendasari sering kali mencakup:

  • Waktu respons sub 1 md
  • Ketersediaan terus-menerus dalam menghadapi pemadaman perangkat keras (atau ketersediaan tinggi tetapi ketersediaan tinggi kurang disukai)
  • Kemampuan untuk meningkatkan
  • Konkurensi tinggi (1.000 detik permintaan / detik)

Saat menerapkan pembelajaran mesin sebagai bagian dari aplikasi, persyaratan aplikasi tentang ketersediaan, ketahanan, dan daya tanggap harus dipenuhi. Selain itu, beberapa persyaratan khusus pembelajaran mesin tambahan dikenakan pada aplikasi:

  • Kemampuan untuk mengaudit keputusan
  • Kemampuan untuk membuat versi model / algoritme
  • Kemampuan untuk mendukung augmentasi data untuk pembelajaran berkelanjutan (bergantung pada algoritme yang diterapkan)

Database Operasional Cloudera dapat memenuhi kedua rangkaian persyaratan 

Untuk memenuhi persyaratan ini, pelanggan biasanya akan meratakan output model pembelajaran mesin ke dalam tabel — pada dasarnya melakukan pra-komputasi semua output untuk seluruh ruang input. Ini menciptakan persyaratan tambahan untuk database yang mendasarinya:

  • Kemampuan untuk membuat tabel berukuran ratusan gigabyte atau terabyte (bergantung pada ukuran dan jumlah parameter input)
  • Kesederhanaan pengelolaan (jangan memaksa admin untuk mengelola sharding, dll)

Dari perspektif database operasional Cloudera, model pembelajaran mesin dengan mudah direpresentasikan sebagai tabel (dan ini adalah pendekatan yang diambil banyak pelanggan):

  • Kunci utama terdiri dari kumpulan input yang diperlukan untuk mengidentifikasi output (terlepas dari jumlah input yang diperlukan)
  • Kolom:Rekomendasi model pembelajaran mesin (keluaran)
  • Kolom:Versi model

Kemampuan audit juga terlihat seperti tabel:

  • Kunci utama terdiri dari kumpulan input yang diperlukan untuk mengidentifikasi output (terlepas dari jumlah input yang diperlukan)
  • Kolom:kepada siapa Anda menyajikan hasil ini (mis. ID pelanggan)
  • Kolom:keluaran apa yang disajikan
  • Kolom:versi model apa yang digunakan
  • Kolom:jawaban alternatif apa yang lebih baik (tambahan)

Augmentasi dapat dilakukan secara manual atau terprogram (yaitu, ketika perusahaan kartu kredit mengirim email kepada Anda meminta Anda untuk memverifikasi transaksi — mereka sedang melakukan augmentasi data). Tabel audit yang ditambah ini dapat digunakan untuk pembelajaran penguatan di dalam database atau diturunkan ke gudang data.

Karena data ada dalam database, pembaruan model dapat dilakukan tanpa waktu henti aplikasi.

Dari perspektif penskalaan, Database Operasional Cloudera dibangun di atas Apache HBase &Apache Phoenix — keduanya telah terbukti menangani tabel berukuran ratusan terabyte tanpa masalah.

Periksa Database Operasional Cloudera dalam Cloudera Data Platform di Public Cloud untuk membangun aplikasi berbasis ML Anda berikutnya.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Ekosistem Hadoop – Pengenalan Komponen Hadoop

  2. Di dalam Arsitektur Penyerapan Data Hampir Real-Time Santander (Bagian 2)

  3. cepat buat contoh tabel hbase

  4. Membawa dukungan transaksi ke Database Operasional Cloudera

  5. Gudang Data Generasi Berikutnya di Santander UK