Mengapa Belajar Cassandra dengan Hadoop?

“Perusahaan menyadari bahwa mereka dapat menambang intelijen bisnis yang berharga untuk meningkatkan pengambilan keputusan dan mendapatkan keunggulan kompetitif. Alat seperti Hadoop dan Cassandra membuat semua ini menjadi mungkin dan karena itu, keterampilan NoSQL di semua tingkatan sangat dibutuhkan.” – Analis di TechRepublic

Dikembangkan sebagai proyek internal di Facebook untuk memperkuat fitur pencarian Kotak Masuk mereka, Cassandra adalah Sistem Manajemen Basis Data Terdistribusi Sumber Terbuka . Ini dirilis sebagai proyek sumber terbuka di Google Code pada tahun 2008 dan kemudian menjadi proyek tingkat atas di dasar Perangkat Lunak Apache sejak 2010.

Cassandra adalah Hal BESAR berikutnya:

Apache Cassandra dirancang untuk menangani sejumlah besar data (dalam hal Kecepatan, Volume, dan Variasi) di berbagai server komoditas yang memastikan ketersediaan tinggi dan tidak memberikan SPOF (Single Point of Failure).
Cassandra juga menawarkan dukungan yang kuat untuk cluster yang mencakup beberapa pusat data. Tidak adanya "struktur master-slave", seperti arsitektur tradisional memungkinkan dampak nol pada sistem jika node tertentu turun.
Para peneliti Universitas Toronto yang melakukan studi tentang sistem NoSQL menyatakan bahwa dalam hal skalabilitas dan throughput maksimum per node , Cassandra muncul sebagai pemenang. Fokus utama dari NoSQL DBMS adalah untuk memastikan Skalabilitas , Kinerja dan Ketersediaan Tinggi. Seperti Kebanyakan DBMS NoSQL, Cassandra dapat menangani data terstruktur dan tidak terstruktur dan berkinerja sangat baik pada parameter di atas.
Cassandra dapat berfungsi sebagai Datastore waktu nyata (“Sistem Pencatatan”) untuk aplikasi online/transaksional dan sebagai Basis Data intensif baca untuk sistem Intelijen Bisnis. Baca postingan blog kami tentang berbagai keunggulan yang ditawarkan Cassandra, untuk informasi lebih lanjut.

Mengapa memilih Hadoop dengan Cassandra?

Secara sederhana, untuk memiliki:

Beban kerja terpadu
Ketersediaan
Penerapan lebih sederhana

Jika menyangkut Hadoop, bisnis tidak tertarik pada struktur penyimpanan dasar Hadoop, tetapi metode penyampaiannya yang hemat biaya untuk menganalisis dan memproses data dalam jumlah besar. Mampu membuat keputusan dari output MapReduce, Hive, Pig, Mahout, dan operasi lainnya adalah hal yang paling penting bagi organisasi ini.

Poin Penting untuk Diingat:

Sistem File Terdistribusi Hadoop (HDFS) adalah salah satu dari banyak komponen dan proyek berbeda yang terkandung dalam ekosistem Hadoop. Proyek Apache Hadoop mendefinisikan HDFS sebagai sistem penyimpanan utama yang digunakan oleh aplikasi Hadoop .HDFS dapat menyimpan kumpulan data tidak terstruktur yang terdistribusi secara besar-besaran. Data dapat disimpan langsung dalam HDFS, atau dapat disimpan dalam format semi-terstruktur di HBase, yang memungkinkan akses data tingkat rekor yang cepat dan dimodelkan setelah sistem BigTable Google. Cassandra di sisi lain adalah non- sistem relasional yang menggunakan model data BigTable , tetapi menggunakan skema Dynamo Amazon untuk distribusi dan pengelompokan data.
Hadoop melakukan banyak hal hebat, kemampuan inti MapReduce-nya sangat kuat. Pakar industri menyukai Hive dan desainnya yang mirip SQL. Namun sistem file HDFS sangat rumit untuk disiapkan, memiliki satu titik kegagalan, dan – menurut umpan balik dari bisnis besar tidak siap untuk melakukan apa yang mereka inginkan . Cassandra di sisi lain menyediakan semua kemampuan tingkat yang lebih rendah dari tumpukan Hadoop. Cassandra pada saat yang sama juga menyediakan kemampuan aplikasi real-time latensi rendah di infrastruktur tersebut.

Bagaimana Cassandra dan Hadoop Dapat Bekerja Sama?

Sejumlah vendor menawarkan alternatif untuk HDFS. Makalah terbaru oleh organisasi bernama GigaOM memberikan gambaran tingkat tinggi tentang bagaimana Apache Cassandra File System dapat digunakan untuk menggantikan HDFS, dengan perubahan pemrograman minimal yang diperlukan dari perspektif pengembangan, dan bagaimana sejumlah manfaat dapat diperoleh dalam proses ini. DataStax , penyedia komersial terkemuka untuk distribusi Cassandra telah menggabungkan Cassandra dengan Hadoop dan menamakannya Brisk. Dengan Brisk, HDFS digantikan oleh Cassandra File System. Jelajahi lebih lanjut tentang konsep HDFS. Lihat Kursus Data Besar Online . ini , yang dibuat oleh Pakar Pekerjaan Industri Teratas.

Kelebihan Kombinasi Cassandra – Hadoop:

Seseorang juga dapat mengimplementasikan Cassandra dengan Hadoop di cluster yang sama. Ini berarti Anda bisa mendapatkan yang terbaik dari kedua dunia.
Tberbasis waktu dan waktu nyata berjalan di bawah aplikasi Cas Cassandra (waktu nyata menjadi kekuatan Cassandra) sementara analisis berbasis batch dan kueri yang tidak memerlukan cap waktu dapat berjalan di Hadoop. Dalam ekosistem semacam ini, HDFS digantikan oleh Cassandra dan ini tidak terlihat oleh pengembang. Seseorang dapat menetapkan ulang secara dinamis, node antara lingkungan Cassandra dan Hadoop sebagaimana mestinya.
Sistem File Cassandra menghapus satu titik kegagalan yang terkait dengan HDFS, yaitu titik kegagalan NameNode dan Job Tracker yang terkait dengan HDFS.

Oleh karena itu, idenya adalah untuk menggabungkan Cassandra yang memelopori dirinya sendiri pada pemrosesan transaksi real-time volume tinggi , dengan Hadoop yang unggul dalam solusi analitis berorientasi batch .

Cassandra dan Biggies:

Banyak organisasi di seluruh vertikal industri menggunakan Cassandra untuk mencapai berbagai tujuan bisnis. Beberapa yang menonjol adalah:

Netflix – Menggunakan Cassandra sebagai database back-end untuk layanan streaming mereka.
WebEx dari Cisco – Menggunakan Cassandra untuk menyimpan umpan dan aktivitas pengguna hampir secara real time.
SoundCloud – Menggunakan Cassandra untuk menyimpan dasbor penggunanya.
IBM – Telah melakukan penelitian dalam membangun sistem email yang skalabel berdasarkan Cassandra

Jabatan yang Melibatkan Keterampilan Hadoop dan Cassandra:

Studi oleh Simplyhired menunjukkan bahwa pekerjaan Cassandra sangat diminati karena tingkat adopsi yang tinggi di industri terutama dalam beberapa tahun terakhir. Dan masa depan terlihat sangat menjanjikan.

Mari kita lihat beberapa judul pekerjaan yang melibatkan keterampilan Hadoop-Cassandra dan gaji mereka yang disebutkan di Indeed.com:

Arsitek Data: Posisi ini menghasilkan gaji rata-rata $107.000. Arsitek data harus memiliki pengalaman dalam membuat model data, penyimpanan data, menganalisis data, dan migrasi data
Ilmuwan Data: Mereka mengumpulkan data, menganalisisnya, menyajikan data secara visual, dan menggunakan data tersebut untuk membuat prediksi/perkiraan. Gaji rata-rata untuk ilmuwan data adalah $104,000
Teknisi Sistem: Gaji rata-rata untuk insinyur sistem adalah $89.000.
DBA: DBA menghasilkan rata-rata lebih dari $100.000.
Pengembang Aplikasi Perangkat Lunak: Pengembang perangkat lunak mendapatkan gaji rata-rata $107.000 dan pengembang aplikasi $93.000. Orang dengan keterampilan ini dapat memperoleh banyak pekerjaan lepas atau dapat meluncurkan startup mereka sendiri jika mereka memiliki jiwa wirausaha.

Pos Terkait:

Memilih database NoSQL yang tepat.

Bagaimana cara membuka CQLSH dari Cassandra yang diinstal pada Windows?