Greenplum Database adalah database SQL pemrosesan paralel masif (MPP) yang dibangun dan didasarkan pada PostgreSQL. Ini dapat menskalakan beban kerja data tingkat multi-petabyte tanpa satu masalah, dan memungkinkan akses ke sekelompok server yang kuat yang akan bekerja bersama dalam satu antarmuka SQL di mana Anda dapat melihat semua data. Dalam posting blog ini, kami menjelaskan apa itu Greenplum, dan menguraikan arsitektur Greenplum, keuntungan, kasus penggunaan utama, dan cara memulai.
Apa sebenarnya Greenplum itu?
Greenplum Database adalah database MPP open-source, hardware-agnostik untuk analitik, berdasarkan PostgreSQL dan dikembangkan oleh Pivotal yang kemudian diakuisisi oleh VMware. Arsitekturnya dirancang khusus untuk mengelola gudang data skala besar dan beban kerja intelijen bisnis dengan memberi Anda kemampuan untuk menyebarkan data Anda ke banyak server.
Basis data penuh fitur ini menyediakan analisis yang kuat dan cepat pada data yang diskalakan hingga volume petabyte.
Sekilas – TLDR | ||||||
---|---|---|---|---|---|---|
|
Arsitektur Greenplum
Untuk mendapatkan pemahaman yang baik tentang arsitektur Greenplum, pertama-tama mari kita lihat apa itu database MPP.
Apa itu Basis Data MPP?
Saat menangani sejumlah besar data kompleks, atau data besar, kemungkinan besar mesin utama Anda mulai dihancurkan oleh semua data yang harus diproses untuk menghasilkan analitik Anda hasil. Untuk memenuhi kebutuhan pemrosesan yang lebih cepat ini dan memungkinkan hasil yang lebih cepat, banyak organisasi mempertimbangkan untuk mengadopsi database MPP.
Sistem MPP memanfaatkan arsitektur shared-nothing untuk menangani beberapa operasi secara paralel. Ini menggunakan beberapa unit pemrosesan berbeda yang bekerja secara independen menggunakan memori dan sumber daya khusus mereka sendiri, sehingga beban kerja dibagi ke beberapa perangkat, bukan hanya satu. Biasanya sistem MPP memiliki satu node pemimpin dan satu atau banyak node komputasi. Node pemimpin, yang disebut 'master' di Greenplum, memberi tahu semua node lain, yang disebut segmen di Greenplum, apa yang harus dilakukan, dan menggabungkan respons mereka untuk membuat jawaban akhir.
Database MPP skala horizontal dengan menambahkan lebih banyak sumber daya komputasi (node), daripada harus mengkhawatirkan peningkatan versi ke server individual yang lebih mahal (penskalaan secara vertikal).
Desain Arsitektur Greenplum
Berdasarkan arsitektur PostgreSQL, Greenplum pada dasarnya memanfaatkan beberapa instance database PostgreSQL sekaligus dalam satu cluster Greenplum tunggal. Pengguna PostgreSQL dapat dengan cepat membiasakan diri dengan tipe database ini, karena banyak fitur, konfigurasi, dan fungsionalitas yang sama di Greenplum, dan mencakup fitur yang dirancang untuk mengoptimalkan cara kerja PostgreSQL untuk tugas dan beban kerja business intelligence (BI).
Greenplum juga memperkenalkan banyak fitur yang tidak tersedia dalam PostgreSQL, seperti pemuatan data paralel, manajemen sumber daya, peningkatan penyimpanan, dan pengoptimalan kueri lanjutan, menjadikannya penawaran yang menarik saat Anda membandingkan dua.
Serupa dengan PostgreSQL, Greenplum memanfaatkan satu server master, atau host, yang merupakan titik masuk ke database, menerima koneksi, dan kueri SQL. Namun, di mana PostgreSQL memanfaatkan node siaga untuk mendistribusikan penyebarannya secara geografis, Greenplum menggunakan host segmen yang menyimpan dan memproses data. Segmen Greenplum independen dan masing-masing menyimpan sebagian data, meskipun menangani sebagian besar pemrosesan kueri. Anda dapat memanfaatkan sedikitnya dua host segmen dan menskalakan ke kapasitas tak terbatas. Jika pencerminan diaktifkan, Anda harus meningkatkan host segmen secara bertahap setidaknya dua.
Jadi, bagaimana semua ini dikoordinasikan? Interkoneksi Greenplum adalah lapisan jaringan dari arsitektur, dan mengelola komunikasi antara segmen Greenplum dan infrastruktur jaringan host utama.
Kelebihan Greenplum
Berikut adalah beberapa keuntungan utama Greenplum yang dapat membantu Anda meningkatkan kinerja database Anda:
-
Kinerja Tinggi
Greenplum memiliki saluran data yang dirancang unik yang dapat mengalirkan data secara efisien dari disk ke CPU, tanpa bergantung pada pemasangan data ke dalam memori RAM, seperti yang dijelaskan dalam Greenplum Next Generation Big Platform Data:Artikel 5 alasan teratas. Ini memberi Greenplum peningkatan kinerja yang sangat besar pada sistem dalam memori yang membutuhkan cukup memori untuk menyimpan datanya, atau sistem berbasis non-RDBMS yang merupakan mesin pemrosesan dalam memori yang mengalokasikan RAM untuk setiap kueri bersamaan. Performa tinggi Greenplum menghilangkan tantangan yang dimiliki sebagian besar RDBMS untuk menskalakan data hingga tingkat petabtye, karena mereka dapat menskalakan secara linier untuk memproses data secara efisien.
-
Pengoptimalan Kueri
Greenplum menampilkan pengoptimal kueri berbasis biaya untuk beban kerja data berskala besar. Memanfaatkan kinerja seperti yang kami bahas di atas, Greenplum menskalakan analitik interaktif dan mode batch ke skala petabyte tanpa menurunkan kinerja kueri Anda. Hal ini memungkinkan Greenplum untuk mendistribusikan beban di antara segmen yang berbeda dan menggunakan semua sumber daya sistem secara paralel untuk memproses kueri.
Selain itu, dengan peningkatan beban kerja OLTP (Online Transactional Processing) di Greenplum 6, kinerja kueri tunggal telah meningkat lebih dari 3,5c dibandingkan Greenplum 5. Dengan pembaruan ini, Greenplum menghilangkan banyak mengunci kompetisi sehingga penggunaan CPU master dapat melebihi 90% yang meningkatkan kinerja kueri dengan meningkatkan kinerja perangkat keras dari node master.
-
Sumber Terbuka
Database Greenplum adalah proyek gudang data open source berdasarkan inti open source PostgreSQL, memungkinkan pengguna untuk memanfaatkan dekade pengembangan ahli di belakang PostgreSQL, bersama dengan kustomisasi Greenplum yang ditargetkan untuk aplikasi data besar. Greenplum dapat berjalan di server Linux mana pun, baik yang dihosting di cloud atau di lokasi, dan dapat berjalan di lingkungan apa pun.
Sementara Greenplum dikelola oleh tim inti pengembang dengan hak komit ke repositori utama, mereka dengan senang hati menyambut kontributor baru yang berpengalaman dengan database untuk membantu membentuk masa depan Greenplum. Pelajari lebih lanjut tentang terlibat melalui halaman Greenplum GitHub.
-
Penyimpanan Data Polimorfik
Penyimpanan data polimorfik Greenplum memungkinkan Anda mengontrol konfigurasi untuk tabel dan penyimpanan partisi dengan kebebasan untuk mengeksekusi dan mengompresi file di dalamnya kapan saja. Ini akan memungkinkan Anda mendesain tabel berdasarkan cara data spesifik Anda diakses dan pada gilirannya memiliki hierarki penyimpanan yang berorientasi pada baris atau kolom.
Saat Anda membuat tabel di Greenplum, Anda dapat mengontrol orientasi dengan kemampuan untuk memilih data berorientasi kolom atau baris. Berorientasi kolom biasanya lebih baik untuk pemindaian penuh, sedangkan berorientasi baris lebih baik untuk pemindaian atau pencarian kecil.
Greenplum bahkan memungkinkan Anda membuat tipe dan fungsi data khusus domain. Melalui penggunaan tipe data semi terstruktur, yang mencakup XML, HStore, dan JSON, Anda memiliki kemampuan untuk menyimpan dan menganalisis data terstruktur dan tidak terstruktur dalam database.
Apa itu Basis Data Greenplum? Pengantar Database Big DataKlik Untuk TweetKasus Penggunaan Utama
Greenplum menyediakan kombinasi yang kuat dari database pemrosesan paralel besar-besaran dan analitik data tingkat lanjut yang memungkinkannya membuat kerangka kerja bagi ilmuwan data dan arsitek untuk membuat keputusan bisnis berdasarkan data yang dikumpulkan oleh kecerdasan buatan dan pembelajaran mesin. Mari kita telusuri kasus penggunaan teratas untuk Greenplum:
Analitik
Analisis lanjutan yang disediakan oleh Greenplum digunakan di banyak vertikal, termasuk keuangan, manufaktur, otomotif, pemerintah, energi, pendidikan, ritel, dan sebagainya, untuk mengatasi berbagai masalah. Beberapa kemampuan analitik Database Greenplum yang disorot oleh Pivotal mencakup kemampuan untuk menganalisis banyak tipe data, memanfaatkan pengetahuan SQL yang ada, dan melatih lebih banyak model dalam waktu yang lebih singkat dengan menggunakan arsitektur MPP.
Selain itu, Greenplum menyediakan analitik dalam database yang memungkinkan Anda menjalankan analitik langsung di database vs. mengekspor dan menjalankan data Anda di mesin analitik eksternal. Sebagai database yang disesuaikan dengan beban kerja perusahaan, ini memberikan kemampuan yang diperlukan untuk menjelajahi kumpulan data besar bersama dengan kinerja tinggi yang dicapai dengan memparalelkan analitik di seluruh host segmen yang tersedia. Anda juga dapat memanfaatkan berbagai alat analisis daya dengan Greenplum, termasuk MADlib, bahasa statistik R, SAS, dan Bahasa Markup Pemodelan Prediktif (PMML).
Misalnya, perusahaan Pemasaran Internet skala satu miliar dolar menggunakan analitik lanjutan Greenplum untuk melakukan pembuatan profil audiens guna memahami siapa audiens mereka, apa yang mereka beli, jaringan dan perangkat apa yang mereka gunakan, dan di mana mereka berada secara geografis sehingga mereka dapat lebih memahami dan melayani pasar mereka.
Pembelajaran Mesin
Greenplum adalah database yang sangat baik untuk pembelajaran mesin – studi tentang algoritme komputer yang meningkat secara otomatis melalui pengalaman. Apache MADlib adalah open source, perpustakaan pembelajaran mesin berbasis SQL yang berjalan dalam database di Greenplum, serta PostgreSQL. Kombinasi ini membantu Anda meningkatkan paralelisme, skalabilitas, dan akurasi prediktif penerapan pembelajaran mesin Greenplum Anda. Transformasi data dan kemampuan rekayasa fitur juga tersedia melalui MADlib untuk pembelajaran mesin, termasuk statistik deskriptif dan inferensial, pivoting, sessionization, dan encoding variabel kategori.
Misalnya, perusahaan retensi pendapatan penipuan Pemerintah memanfaatkan kemampuan pembelajaran mesin Greenplum bersama dengan GemFire untuk melakukan deteksi penipuan skala besar guna mencegah pencurian identitas, mendeteksi dan mempertahankan $5 miliar per tahun dan memproses 8 juta kasus per hari.
AI
Kecerdasan buatan (AI), meskipun mirip dengan pembelajaran mesin, mengacu pada gagasan yang lebih luas di mana mesin dapat menjalankan tugas dengan cerdas. Greenplum adalah pilihan database yang bagus untuk aplikasi yang ingin meniru kemampuan manusia melalui mesin pintar. Dengan kemampuan Greenplum untuk menyerap data dalam jumlah besar dengan kecepatan tinggi, database ini menjadi alat yang ampuh untuk aplikasi pintar yang perlu berinteraksi secara cerdas berdasarkan skenario unik dalam jumlah tak terbatas.
Misalnya, perusahaan Telecom menggunakan kemampuan AI database Greenplum untuk sensor cerdas sistem pelaporan operasional IoT mereka guna menganalisis dan mengeksekusi peristiwa yang digunakan untuk pemeliharaan, keamanan, dan efisiensi operasional.
Jadi siapa yang menggunakan Greenplum hari ini? Pelanggan Greenplum termasuk American Express, Walmart, Asurian, Bank of America, dan banyak lagi di seluruh perbankan, layanan profesional, media, asuransi, perawatan kesehatan, otomotif, dan pasar ritel.
Cara Memulai
Seperti yang disebutkan di seluruh posting ini, Greenplum adalah database open source sehingga versi komunitas benar-benar gratis untuk diunduh dan digunakan. Komunitas kecil tapi aktif Greenplum menyambut kontributor baru, menerima umpan balik, dan berkolaborasi dengan penginjil Greenplum untuk mempromosikan database big data.
Banyak organisasi yang memanfaatkan Greenplum mencari dukungan dan alat tambahan untuk membantu DBA mengelola penerapannya. Berikut adalah dua opsi manajemen dan dukungan basis data berbeda yang tersedia untuk Greenplum:
ScaleGrid untuk Greenplum® Database – Versi Open Source
ScaleGrid for Greenplum® Database adalah solusi terkelola sepenuhnya untuk versi open source Greenplum, diluncurkan pada Mei 2020. Platform multi-cloud memungkinkan Anda menerapkan dan mengelola di AWS, Platform cloud Azure atau Google Cloud (segera hadir), atau lingkungan lokal VMware. ScaleGrid memberi pengguna Greenplum alat manajemen lanjutan yang mereka perlukan untuk diterapkan dalam satu klik, mengotomatiskan pencadangan, dan menskalakan secara dinamis dengan kemampuan untuk mempertahankan hak istimewa admin pengguna super penuh atas penerapan sumber terbuka mereka.
Greenplum Penting – Versi Komersial
Greenplum Penting, sekarang VMware Tanzu adalah pencipta di balik database open source yang menawarkan versi komersial database untuk membantu Anda menerapkan dan mengelola Greenplum di cloud dan di lokasi. Greenplum Pivotal menawarkan banyak keuntungan, seperti kemampuan untuk memaksimalkan waktu aktif, melindungi integritas data, dan menangani data streaming dan data cloud dengan mudah.
Baik ScaleGrid maupun Pivotal Greenplum menawarkan paket dukungan lanjutan untuk membantu DBA Anda mengoptimalkan penerapan Greenplum mereka.