HBase
 sql >> Teknologi Basis Data >  >> NoSQL >> HBase

20 Perbedaan Penting Antara Hadoop 2.x vs Hadoop 3.x

Tujuan dari tutorial Hadoop ini adalah untuk memberi Anda pemahaman yang lebih jelas antara versi Hadoop yang berbeda. Di blog ini kami telah membahas 20 Perbedaan antara Hadoop 2.x vs Hadoop 3.x.

Blog ini membahas perbedaan antara Hadoop 2 dan Hadoop 3 berdasarkan fitur yang berbeda.

Perbedaan Hadoop 2.x vs Hadoop 3.x

Apache Hadoop adalah kerangka kerja perangkat lunak sumber terbuka untuk penyimpanan terdistribusi &pemrosesan kumpulan data dalam jumlah besar.

Hadoop 3.x diperkenalkan untuk mengatasi batasan Hadoop 2.x. Hadoop 3.x telah menambahkan beberapa fitur baru, meskipun fitur lama masih digunakan.

Perbandingan bijaksana fitur terperinci antara Hadoop 2.x vs Hadoop 3.x diberikan di bawah ini:

a. Lisensi

  • Hadoop 2 .x- Apache 2.0, sumber terbuka
  • Hadoop 3 .x- Apache 2.0, sumber terbuka

b. Versi Java minimum yang didukung

  • Hadoop 2 .x- Java 7.
  • Hadoop 3 .x- Java 8.

c. Toleransi Kesalahan

  • Hadoop 2.x- Dalam versi ini, replikasi menangani toleransi kesalahan.
  • Hadoop 3.x- Dalam versi ini, pengkodean penghapusan menangani toleransi kesalahan.

d. Penyeimbangan Data

  • Hadoop 2.x- Menggunakan HDFS Penyeimbang untuk penyeimbangan data
  • Hadoop 3.x- Menggunakan penyeimbang node Intra-data, yang dipanggil melalui CLI penyeimbang disk HDFS.

e. Skema Penyimpanan

  • Hadoop 2.x- Menggunakan skema replikasi 3X.
  • Hadoop 3.x- Menggunakan pengkodean Penghapusan.

f. Overhead Penyimpanan

  • Hadoop 2.x- Dalam versi ini, HDFS memiliki overhead 200% di ruang penyimpanan.
  • Hadoop 3.x- Dalam versi ini, HDFS memiliki overhead 50% dalam ruang penyimpanan.

g. Contoh Overhead Penyimpanan

  • Hadoop 2.x- Jika ada 6 blok, dan setiap blok 3x ulangan, maka menghasilkan 18 blok. Ini akan menempati ruang 18 blok.
  • Hadoop 3.x- Jika ada 6 blok, maka akan menempati 9 blok ruang yaitu 6 blok dan 3 untuk paritas.

h. Layanan Garis Waktu BENANG

  • Hadoop 2.x- Menggunakan layanan timeline lama yang memiliki masalah skalabilitas.
  • Hadoop 3.x- Versi ini meningkatkan layanan timeline v2. Ini juga meningkatkan skalabilitas dan keandalan layanan linimasa.

j. Rentang Port Default

  • Hadoop 2.x- Dalam versi ini, port default adalah rentang port ephemeral Linux. Oleh karena itu pada saat startup, mereka akan gagal untuk mengikat.
  • Hadoop 3.x- Sementara versi ini dipindahkan dari jangkauan sementara.

k. Alat

  • Hadoop 2.x- Sarang, babi, Tez, Hama, dan alat Hadoop lainnya juga tersedia.
  • Hadoop 3.x- Dalam versi ini juga tersedia Hive, pig, Tez, Hama, dan alat Hadoop lainnya.

l. Sistem File yang Kompatibel

  • Hadoop 2.x- Ini mendukung HDFS (FS Default), Sistem File FTP:Ini juga menyimpan semua datanya di server FTP yang dapat diakses dari jarak jauh. Ini juga mendukung sistem file Amazon S3 (Simple Storage Service) sistem file Windows Azure Storage Blobs (WASB).
  • Hadoop 3.x- Ini mendukung semua yang sebelumnya serta sistem file Microsoft Azure Data Lake.

m. Sumber Daya Datanode

  • Hadoop 2.x- Untuk sumber daya MapReduce Datanode tidak didedikasikan. Kami juga dapat menggunakannya untuk aplikasi lain.
  • Hadoop 3.x- Dalam versi ini juga sumber data node dapat digunakan untuk Aplikasi lain juga.

n. Kompatibilitas MR API

  • Hadoop 2.x- MR API kompatibel dengan program Hadoop 1.x untuk dijalankan di Hadoop 2.X
  • Hadoop 3.x- MR API juga kompatibel dengan menjalankan program Hadoop 1.x untuk dijalankan di Hadoop 3.X

o. Dukungan untuk Microsoft

  • Hadoop 2.x- Itu dapat digunakan di Windows.
  • Hadoop 3.x- Ini juga mendukung untuk Microsoft windows.

hal. Slot/wadah

  • Hadoop 2.x- Hadoop 1.x menggunakan konsep slot, sedangkan Hadoop 2.X menggunakan konsep container.
  • Hadoop 3.x- Hadoop 3.x juga bekerja pada konsep wadah.

q. Satu titik kegagalan

  • Hadoop 2.x- Ini memiliki fitur untuk mengatasi SPOF. Jadi, setiap kali NameNode gagal, ia akan pulih secara otomatis.
  • Hadoop 3.x- Ini juga memiliki fitur untuk mengatasi SPOF. Jadi, setiap kali NameNode gagal, ia akan pulih secara otomatis, tidak perlu intervensi manual.

r. Federasi HDFS

  • Hadoop 2.x- Di Hadoop 1.x hanya satu NameNode untuk mengelola semua Namespace. Tapi Hadoop 2.x memiliki beberapa NameNode untuk beberapa Namespace.
  • Hadoop 3.x-  Ini juga memiliki beberapa Namenode untuk beberapa namespace.

s. Skalabilitas

  • Hadoop 2.x- Kami dapat meningkatkan hingga 10.000 Node per cluster.
  • Hadoop 3.x- Kami dapat menskalakan lebih dari 10.000 Node per cluster.

t. Cuplikan HDFS

  • Hadoop 2.x- Ini menambahkan dukungan untuk snapshot. Ini juga menyediakan pemulihan bencana dan perlindungan untuk kesalahan pengguna.
  • Hadoop 3.x- Ini juga mendukung fitur snapshot.

u. Platform

  • Hadoop 2.x- Ini berfungsi sebagai platform untuk berbagai analisis data. Anda juga dapat menjalankan pemrosesan acara, streaming, dan operasi waktu nyata.
  • Hadoop 3.x- Dimungkinkan juga untuk menjalankan pemrosesan acara, streaming, dan operasi real-time di atas YARN.

Kesimpulan

Kesimpulannya, Hadoop 3.0 telah menambahkan fitur baru seperti pengkodean penghapusan untuk menangani toleransi kesalahan. Hadoop 3.x juga mengurangi overhead penyimpanan sebesar 200% hingga 50%.

Itu juga memperkenalkan alat baris perintah baru yang disebut penyeimbang Disk. Oleh karena itu, Hadoop 3.x telah meningkatkan kinerja secara keseluruhan.

Jika Anda menemukan perbedaan lain antara Hadoop 2.x vs Hadoop 3.x, beri tahu kami di bagian komentar.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Spark di HBase dengan Spark shell

  2. Apa itu Hadoop Cluster? Praktik Terbaik untuk Membangun Cluster Hadoop

  3. Transformasi Digital adalah Perjalanan Data Dari Ujung ke Wawasan

  4. Membuat Standar Terbuka:Tata Kelola Pembelajaran Mesin menggunakan Apache Atlas

  5. Konsep pengembangan aplikasi Database Operasional Cloudera