Pengantar Hadoop dan Big Data

Berurusan dengan banyak data memerlukan beberapa pengaturan khusus. Teknik komputasi umum tidak cukup untuk menangani banjir data;, terlebih lagi, ketika mereka berasal dari berbagai sumber. Dalam Big Data, besaran yang kita bicarakan sangatlah besar—diukur dalam zettabyte, exabyte, atau jutaan petabyte atau miliaran terabyte. Kerangka kerja yang disebut Hadoop populer digunakan untuk menangani beberapa masalah dengan manajemen Big Data. Artikel ini mencoba memberikan ide pengantar tentang Hadoop dalam kaitannya dengan Big Data.

Evolusi

Tidak ada yang terjadi dengan ledakan besar. Asal usul dan evolusi Hadoop secara bertahap dan sesuai dengan kebutuhan jam dalam menangani Big Data. Singkatnya, itu berasal dari proyek Apache Nutch Doug Cutting pada tahun 2003, terutama di bagian awal kodenya. Genesis dikembangkan dari Google File System (GFS), sebuah makalah yang diterbitkan pada Oktober 2003, yang mempengaruhi makalah lain yang disebut MapReduce:Simplified Data Processing on Large Clusters. Kode untuk HDFS di Hadoop diperhitungkan dari proyek Apache Nutch pada tahun 2006 dan sangat dipengaruhi oleh algoritma GFS dan MapReduce. Dan, fakta bahwa nama “Hadoop” berasal dari boneka gajah mainan anak laki-laki Cutting jelas menggemakan gagasan bahwa ada seekor gajah di dalam ruangan yang Hadoop jelas ingin tangani atau tangani.

Singkatnya

Hari ini, Hadoop telah berkembang dari awal yang monolitik menjadi perpustakaan perangkat lunak, kerangka kerja untuk mengembangkan aplikasi yang memerlukan pemrosesan terdistribusi dari sejumlah besar data yang terletak di cluster komputer menggunakan model pemrograman sederhana. Itu dapat ditingkatkan dari server tunggal ke ribuan mesin. Idenya adalah untuk mendistribusikan komputasi dan penyimpanan di beberapa komputer untuk memanfaatkan pemrosesan set data yang besar. Pustaka memiliki kemampuan untuk mendeteksi kegagalan pada tingkat lapisan aplikasi sehingga pemrogram dapat menanganinya dan memberikan layanan di atas sekelompok komputer daripada menembus kegagalan ke satu atau lebih tingkat yang lebih rendah di mana menjadi lebih sulit untuk kelola atau atasi.

Hadoop, oleh karena itu, adalah kombinasi alat dan pustaka sumber terbuka yang didukung oleh Apache untuk membuat aplikasi untuk komputasi terdistribusi yang sangat andal dan skalabel.

Cara Kerjanya

Ada tiga cara Hadoop pada dasarnya menangani Big Data:

Masalah pertama adalah penyimpanan. Data disimpan dalam beberapa mesin komputasi dalam lingkungan terdistribusi di mana mereka dapat diproses secara paralel untuk mengurangi waktu dan sumber daya. Data disimpan dalam lingkungan yang disebut Hadoop Distributed File System (HDFS) , yang digunakan untuk menyimpan data dalam berbagai format di seluruh kelompok mesin. Untuk tujuan ini, ia membagi data menjadi blok dan menyimpannya di berbagai node data. Ini menggunakan teknik yang disebut skala horizontal untuk menambahkan node data tambahan ke cluster HDFS yang ada sesuai dengan kebutuhan. Ini memaksimalkan pemanfaatan sumber daya yang ada alih-alih menambahkannya setiap kali kebutuhan untuk meningkatkan skala muncul.
Masalah kedua adalah mengakomodasi keragaman data. HDFS dilengkapi untuk menyimpan semua jenis data, baik itu terstruktur, semi terstruktur, atau tidak terstruktur. Tidak ada validasi skema pra-dumping. Data, setelah ditulis, dapat dibaca berkali-kali tanpa masalah.
Masalah ketiga adalah pemrosesan dan cara mengakses data yang disimpan. Dalam hal ini, algoritma MapReduce datang untuk menyelamatkan, di mana pemrosesan didistribusikan di seluruh node budak untuk bekerja secara paralel dan hasilnya dikirim kembali ke node master. Node master menggabungkan hasil sebelum memberikan hasil akhir. Bagian ini ditangani oleh YARN, yang dirancang untuk pemrosesan paralel data yang disimpan dalam HDFS.

Ada banyak bagian yang rumit, tapi inilah yang dilakukan Hadoop secara singkat. Ide modul akan memberikan wawasan lebih lanjut.

Modul

Apache Hadoop Project terdiri dari enam modul. Empat yang pertama adalah sebagai berikut:

Hadoop Umum :Ini terdiri dari utilitas yang biasa digunakan oleh Hadoop dan mendukung modul Hadoop lainnya. Itu juga dikenal sebagai Hadoop Core dan merupakan bagian penting dari ekosistem, bersama dengan HDFS, YARN, dan MapReduce. Di bagian inilah Hadoop menganggap bahwa perangkat keras rentan terhadap kegagalan dan segala cara yang diperlukan disediakan bagi pemrogram untuk menangani kegagalan perangkat lunak secara otomatis.
Sistem File Terdistribusi Hadoop (HDFS) :Sistem file terdistribusi yang dapat menampung berbagai file di lingkungan terdistribusi. Ini memecah file menjadi blok dan menyimpannya di seluruh node dalam arsitektur terdistribusi. Ini memberikan penskalaan horizontal alih-alih penskalaan vertikal, untuk pengelompokan tambahan. Ini sangat toleran terhadap kesalahan dan berbiaya rendah dalam hal kemampuan penerapan perangkat keras.
BENANG Hadoop :Ini adalah CPU dari kerangka Hadoop. Dengan dua komponen utama, yang disebut NodeManager dan ResourceManager , YARN melakukan semua aktivitas pemrosesan seperti alokasi sumber daya, penjadwalan tugas, dan manajemen cluster.
Hadoop MapReduce :Ini adalah kerangka kerja untuk melakukan semua komputasi paralel. MapReduce adalah model pemrograman paralel untuk memproses data dalam lingkungan terdistribusi. Ini idealnya digunakan untuk menulis aplikasi terdistribusi yang secara efisien dapat memproses data dalam jumlah besar di seluruh kelompok perangkat keras komoditas. Ini membagi proses menjadi dua fase, yang disebut Peta dan Kurangi , di mana tugas Mapper kelas adalah untuk mengambil input, tokenize, peta, dan mengurutkannya. Outputnya kemudian menjadi input ke Reducer class, yang mencari pasangan yang cocok dan menguranginya. Ada pasangan kunci-nilai untuk input dan output di setiap fase, dan jenis pasangan ditentukan oleh programmer.

Dua sub-proyek baru ditambahkan baru-baru ini:

Hadoop Ozon :Ini adalah penyimpanan objek yang skalabel, redundan, dan terdistribusi untuk Hadoop. Selain penskalaan ke miliaran objek dengan berbagai ukuran, Ozon dapat berfungsi secara efektif di lingkungan kemas seperti Kubernetes dan YARN. Itu dibangun di atas lapisan penyimpanan blok yang sangat tersedia dan direplikasi yang disebut Hadoop Distributed Data Store (HDDS) . [Kutipan. Klik untuk menemukan lebih banyak.]
Kapal Selam Hadoop :Mesin pembelajaran mesin untuk Hadoop. Ini adalah proyek yang memungkinkan insinyur infra/ilmuwan data untuk menjalankan aplikasi pembelajaran mendalam (Tensorflow, Pytorch, dan sebagainya) pada platform manajemen sumber daya (seperti BENANG). [Kutipan. Klik untuk menemukan lebih banyak.]

Kesimpulan

Hadoop telah membuat dampak yang signifikan pada pencarian, dalam proses logging, dalam penyimpanan data, dan analitik Big Data dari banyak organisasi besar, seperti Amazon, Facebook, Yahoo, dan sebagainya. Ini adalah solusi satu atap untuk menyimpan sejumlah besar data dalam bentuk apa pun, disertai dengan kekuatan pemrosesan yang dapat diskalakan untuk memanfaatkan pekerjaan bersamaan yang hampir tak terbatas. Singkatnya, popularitas Hadoop sangat bergantung pada toleransi kesalahan, skalabel, hemat biaya, dan kemampuannya yang cepat.