Apa Selanjutnya untuk Impala Setelah Rilis 1.1

Pada bulan Desember 2012, saat Cloudera Impala masih dalam tahap beta, kami menyediakan peta jalan untuk fungsionalitas yang direncanakan dalam rilis produksi. Dengan semangat yang sama untuk memberikan informasi yang baik kepada pengguna, pelanggan, dan penggemar Impala, postingan ini memberikan peta jalan yang diperbarui untuk rilis mendatang akhir tahun ini dan awal 2014.

Tapi pertama-tama, terima kasih:Sejak rilis beta awal, kami telah menerima banyak sekali masukan dan validasi tentang Impala — baik dalam kualitas maupun kuantitasnya. Setidaknya satu orang di sekitar 4.500 organisasi unik di seluruh dunia telah mengunduh biner Impala, hingga saat ini. Dan bahkan setelah hanya beberapa bulan GA, kami telah melihat pelanggan Cloudera Enterprise dari berbagai industri menerapkan Impala 1.x di lingkungan bisnis yang penting dengan dukungan melalui langganan Cloudera RTQ (Real-Time Query) — termasuk organisasi terkemuka di bidang asuransi, perbankan, ritel, perawatan kesehatan, game, pemerintahan, telekomunikasi, dan periklanan.

Selanjutnya, berdasarkan reaksi dari vendor lain di ruang manajemen data, beberapa pengamat akan membantah gagasan bahwa Impala telah membuat kueri SQL interaktif latensi rendah untuk Hadoop sebagai persyaratan pelanggan yang sama pentingnya dengan kueri SQL berorientasi batch latensi tinggi. diaktifkan oleh Apache Hive. Itu perkembangan yang bagus untuk pengguna Hadoop di mana saja!

Apa yang Disampaikan di Impala 1.0/1.1

Mari kita mulai dengan rapor pada peta jalan Impala 1.0/1.1 yang diterbitkan sebelumnya. Berikut daftar fitur yang dikelompokkan berdasarkan status pengiriman:

Terkirim:

Dukungan untuk format Parket, format file Apache Avro, dan File Teks terkompresi LZO
Dukungan untuk platform OS 64-bit yang sama seperti yang didukung untuk CDH
Pengemudi JDBC
Dukungan DDL
Penggabungan lebih cepat, lebih besar, lebih hemat memori
Agregasi yang lebih cepat, lebih besar, lebih hemat memori
Pengoptimalan kinerja SQL lainnya

Ditunda berdasarkan masukan pelanggan:

Penanganan straggler
Pembaruan metadata otomatis

Selain itu, berkat penambahan modul Apache Sentry (incubating), Impala 1.1 dan yang lebih baru kini juga memberikan otorisasi berbasis peran yang terperinci, memastikan bahwa pengguna dan aplikasi yang tepat memiliki akses ke data yang tepat. (Dengan kontribusi terbaru dari Sentry ke Apache Incubator dan HiveServer2 ke Hive oleh Cloudera, Hive 0.11 dan yang lebih baru juga memiliki fungsi tersebut.)

Banyak pekerjaan yang telah dilakukan, tetapi masih banyak pekerjaan yang harus dilakukan. Sekarang, ke gelombang Impala 2.0.

Peta Jalan Jangka Pendek

Fungsionalitas Impala baru berikut akan dirilis secara bertahap di seluruh rilis mendatang dalam waktu dekat, dimulai dengan Impala 1.2 pada akhir 2013 dan diakhiri dengan Impala 2.0 pada sepertiga pertama tahun 2014. Selain itu, Anda akan melihat lebih banyak peningkatan kinerja dan peningkatan fungsionalitas SQL di setiap rilis – dengan tujuan memperluas keunggulan kinerja Impala dibandingkan pendekatan SQL-on-Hadoop alternatif dari vendor database relasional lama serta vendor distro Hadoop.

Harap dicatat, seperti yang selalu terjadi pada peta jalan, bahwa garis waktu dan fitur selalu dapat berubah. Namun, apa yang Anda lihat di bawah menangkap rencana pencatatan kami saat ini.

Impala 1.2

UDF dan ekstensibilitas – memungkinkan pengguna menambahkan fungsionalitas khusus mereka sendiri; Impala akan mendukung UDF Hive Java yang ada serta UDF dan UDAF asli berperforma tinggi
Pembaruan metadata otomatis – memungkinkan tabel dan data baru tersedia dengan mulus untuk kueri Impala saat ditambahkan tanpa harus mengeluarkan penyegaran manual pada setiap simpul Impala
Caching HDFS dalam memori – memungkinkan akses ke data Hadoop yang sering diakses dengan kecepatan dalam memori
Optimalisasi pesanan bergabung berbasis biaya – membebaskan pengguna dari keharusan menebak urutan bergabung yang benar
Pratinjau pengelola sumber daya terintegrasi YARN — memungkinkan prioritas beban kerja dengan perincian yang lebih baik daripada isolasi tingkat layanan yang saat ini disediakan di Cloudera Manager

Impala 2.0

Daftar di bawah ini hanya menampilkan fitur yang lebih besar dan paling sering diminta; itu tidak berarti lengkap.

Fungsi jendela analitik yang sesuai dengan SQL 2003 (agregasi OVER PARTITION) – untuk memberikan kemampuan analitik SQL yang lebih canggih
Mekanisme autentikasi tambahan – termasuk kemampuan untuk menentukan nama pengguna/sandi selain autentikasi Kerberos yang sudah didukung
UDTF (fungsi tabel yang ditentukan pengguna) – untuk fungsi dan ekstensibilitas pengguna yang lebih lanjut
Agregasi dan penggabungan yang diparalelkan intra-node – untuk memberikan penggabungan dan agregasi yang lebih cepat selain peningkatan kinerja Impala
Data bersarang – mengaktifkan kueri pada struktur bersarang yang kompleks termasuk peta, struct, dan larik
Pengelola sumber daya terintegrasi, siap produksi, dan terintegrasi dengan BENANG
Peningkatan parket – peningkatan performa yang berkelanjutan termasuk halaman indeks
Tipe data tambahan – termasuk tipe Tanggal dan Desimal
ORDER BY tanpa LIMIT klausa

Di luar Impala 2.0

Daftar fitur berikut adalah fitur yang saat ini kami antisipasi akan hadir di 2.1 atau rilis segera setelahnya:

Fungsi SQL analitik tambahan – ROLLUP, CUBE, dan GROUPING SET
Apache HBase CRUD – memungkinkan penggunaan Impala untuk menyisipkan dan memperbarui ke HBase
Penggabungan eksternal menggunakan disk – memungkinkan gabungan antar tabel tumpah ke disk untuk gabungan yang memerlukan tabel gabungan yang lebih besar dari ukuran memori agregat
Subkueri di dalam klausa WHERE

Saat kami mempelajari lebih lanjut tentang persyaratan pelanggan dan mitra, daftar ini akan berkembang.

Kesimpulan

Seperti yang Anda lihat, Impala telah berkembang pesat sejak rilis beta, dan akan terus berkembang seiring kami mengumpulkan lebih banyak masukan dari pengguna, pelanggan, dan mitra.

Pada akhirnya, kami percaya bahwa Impala telah mengaktifkan tujuan keseluruhan kami untuk memungkinkan pengguna menyimpan semua data mereka dalam format file Hadoop asli, dan secara bersamaan menjalankan semua batch, pembelajaran mesin, SQL/BI interaktif, matematika, pencarian, dan beban kerja lainnya pada data itu. di tempat. Dari sini, tinggal melanjutkan pembangunan di atas fondasi yang sangat kokoh dengan fungsionalitas yang lebih kaya dan performa yang ditingkatkan.

Justin Erickson adalah direktur manajemen produk di Cloudera.