HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

Gudang Data Generasi Berikutnya di Santander UK

Data tepat waktu sangat penting untuk bisnis di era Big Data:Posting blog ini menguraikan bagaimana Santander UK menggunakan teknologi Cloudera terbaru dan kemampuan pengembangan perangkat lunak yang unggul untuk menciptakan generasi berikutnya dari pergudangan data dan analitik streaming untuk mendukung kecerdasan yang dapat meningkatkan hubungan dengan pelanggan dan ikuti mantra 'kami ingin membantu orang tumbuh dan berkembang.

Perjalanan data besar Santander UK dimulai sekitar empat tahun lalu. Mereka adalah pengguna awal teknologi streaming data baru seperti Apache Kafka dan memiliki ambisi untuk merevolusi pengalaman pelanggan dengan penggunaan data real-time dan analisis dalam aplikasi untuk pengguna seluler.

Sejak itu, Santander UK telah meningkatkan jejak dan kemampuan untuk berinovasi dengan teknologi data besar dan telah berkembang pesat. Kebutuhan akan analitik streaming skala besar telah meningkat dan menjadi kenyataan. Hari ini, di Santander UK, platform Big Data, Machine Learning, dan Analytics Cloudera dilengkapi dengan pengiriman peristiwa Platform-as-a-Service (PaaS) yang terintegrasi dan berkualitas tinggi melalui Apache Kafka.

Komponen teknologi lain yang menjadi pusat Data Warehouse generasi berikutnya di Santander UK adalah penggunaan Apache Kudu untuk mengaktifkan analitik cepat pada data cepat. Ketika dikombinasikan dengan aspek metodologi desain Data Vault 2.0, ini memfasilitasi penyerapan cepat dari ratusan aliran data Apache Kafka; melepaskan beban kerja dari sistem lama yang ada dan memberikan kemampuan untuk mengajukan pertanyaan 'di sini, sekarang juga' mengenai perilaku pelanggan dan kondisi Bank saat ini.

Kecepatan ke Pasar

Aliran data yang cepat dapat dipindahkan secara online dengan sedikit usaha karena platform baru yang inovatif di Santander UK, yang mengintegrasikan sistem lama dengan Data Vault baru melalui Apache Kafka. Karena struktur bersih dari data yang terintegrasi, umpan aliran peristiwa baru untuk mengisi Gudang Data Apache Kudu sebagian besar didorong oleh konfigurasi – menyesuaikan peristiwa data dengan struktur Hub, Satelit, dan Tautan dari metodologi Data Vault 2.0. Hal ini memungkinkan skema untuk bereaksi terhadap perubahan dalam bisnis atau pemahaman baru tentang bagaimana data harus disesuaikan.

Santander UK dapat memengaruhi transformasi data dengan menskalakan platform pengiriman peristiwa elastis, yang didasarkan pada Scala Akka dan Apache Kafka, yang memungkinkan pengayaan data yang cepat dan skalabel secara real-time. Hal ini memungkinkan data yang lebih cepat, lebih tepat waktu, keputusan yang lebih cepat, dan kecepatan yang lebih tinggi untuk memasarkan kasus penggunaan karena platform dan arsitektur yang dapat digunakan kembali.

Ilmu Data dan Pembuatan Prototipe Cepat Produk Data

Pada akhirnya, ada banyak konsumen potensial dari sumber data streaming ini; namun, wawasan menarik telah diperoleh melalui integrasi Cloudera Data Science Workbench ke Data Vault. Ini memberikan pengalaman Ilmu Data yang komprehensif untuk tim Ilmu Data yang sedang berkembang dan juga menggunakan—dalam gaya inovatif khas Santander Inggris—potensi untuk membuat prototipe ide dengan cepat dan membuat produk data baru sebelum menangani tantangan arsitektur dan teknik yang berat. Buat prototipe cepat, lalu, jika menghasilkan nilai, kembangkan menjadi produk kelas satu.

Integrasi Cepat:Model Kontribusi

Sejalan dengan inovasi dan kelincahan yang telah diwujudkan oleh tim Inovasi Data Inggris Santander, mereka menciptakan gagasan tentang Model Kontribusi. Karena kluster ini multi-penyewa dengan unit bisnis yang berbeda mencari, membersihkan, dan merekayasa kumpulan data baru; jika dianggap berguna untuk bisnis lainnya, tabel tautan gaya Data Vault dapat digunakan untuk mengintegrasikan data yang umumnya berguna ini ke inti skema Data Vault. Dengan cara ini, tim dapat meningkatkan nilai produk data melalui pembuatan cepat kombinasi set data baru, dengan garis keturunan yang dapat dilacak menggunakan Cloudera Navigator untuk tata kelola, dan keamanan dengan menggunakan Apache Sentry untuk kontrol akses. Jika data unit bisnis dianggap bermanfaat bagi orang lain, data tersebut terkait dengan inti dan dibagikan sesuai dengan prinsip tata kelola.


Model Kontribusi memungkinkan kami memanfaatkan kumpulan data murni yang dibuat secara independen oleh unit bisnis dan tim produk yang berbeda. Jika data ini berharga bagi bisnis lainnya, kami memiliki kemampuan untuk membawanya ke Data Vault sebagai warga kelas satu melalui pemanfaatan tabel tautan. Kami ingin mereplikasi pendekatan komunitas Apache ke perangkat lunak sumber terbuka untuk sistem data di organisasi kami guna meningkatkan inovasi melalui kolaborasi.

    – Nicolette Bullivant – Kepala Teknik Data, Santander Inggris

Multi-Tujuan:Satu Aliran untuk Mengatur Semuanya

Aliran peristiwa mentah yang dihasilkan dari sistem warisan dianggap kanonik, dan umumnya diperlukan oleh pemangku kepentingan lain yang menggunakan cluster. Tim Inovasi Data Santander Inggris telah mengadopsi prinsip untuk memastikan bahwa aliran peristiwa ini tersedia untuk digunakan oleh kasus penggunaan dan teknologi yang berbeda; dengan demikian, aliran acara kanonik dapat didistribusikan kembali ke tujuan yang berbeda; baik sistem file HDFS, Apache HBase, atau Apache Kudu. Ini membantu menghasilkan satu versi kebenaran bagi semua pemangku kepentingan sekaligus menghindari tekanan balik pada sistem lama.

Kesimpulan

Singkatnya, Santander UK berinovasi langsung di tumpukan Cloudera, menggabungkan data streaming, prinsip dan kerangka kerja rekayasa perangkat lunak tingkat lanjut, dan prinsip desain gudang data modern untuk menghasilkan wawasan waktu nyata guna meningkatkan pengalaman pelanggan dan kesejahteraan finansial pelanggan. Inovasi ini baru-baru ini diakui sebagai panel juri pihak ketiga yang memilih Santander sebagai finalis Data Impact Award.

Nicolette Bullivant adalah Kepala Teknik Data di Santander UK.
Rob Siwicki adalah Arsitek Solusi Senior untuk Layanan Profesional Cloudera, EMEA.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. MapReduce Shuffle dan Sorting di Hadoop

  2. Apa itu Kelas Pemeta Hadoop di MapReduce?

  3. Penghitung Hadoop &Jenis Penghitung di MapReduce

  4. How-to:Gunakan Antarmuka Hemat HBase, Bagian 1

  5. Jalur Tulis Apache HBase