Database
 sql >> Teknologi Basis Data >  >> RDS >> Database

Unggah Dokumen ke Azure Data Lake dan Ekspor Data menggunakan SSIS

Pendahuluan

Azure tumbuh setiap hari. Microsoft menciptakan Azure, yang merupakan layanan Cloud Computing yang dirilis pada 2010.

Menurut Microsoft, 80% dari 500 perusahaan yang beruntung menggunakan Azure. Juga, 40% dari Pendapatan Azure berasal dari Startup dan vendor perangkat lunak independen. 33% Mesin Virtual Azure menggunakan Linux. Microsoft memperkirakan akan menghasilkan $20 miliar pada tahun 2018.

Itulah sebabnya perusahaan memigrasikan sebagian data ke Azure dan terkadang semua data.

Azure Data Lake adalah penyimpanan khusus untuk menganalisis Big Data secara paralel di Azure. Ini dioptimalkan untuk analitik. Anda dapat menyimpan data jaringan sosial, email, dokumen, informasi sensor, informasi geografis, dan lainnya.

Jika Anda hanya ingin menyimpan data, Azure Blob Storage sudah cukup. Jika Anda ingin menganalisis data, Data Lake adalah pilihan terbaik karena dirancang untuk laporan.

Penyimpanan Data Lake biasanya dianalisis menggunakan Cortana Analytics Suite, Power BI, SSIS adalah alat yang terkenal dan populer untuk memigrasikan data. Dalam artikel baru ini, kami akan menunjukkan cara menggunakan SSIS untuk memigrasikan data ke Azure. Kami juga akan menunjukkan cara mengekspor data dari file .txt di Azure Data Lake Store ke SQL Server lokal.

Jika Anda tidak memiliki pengalaman di Azure, tetapi Anda memiliki pengalaman dengan SSIS. Artikel ini untuk Anda.

Kami akan mengikuti langkah-langkah ini untuk mengimpor data di Azure Data Lake:

  1. Instal paket Fitur SSIS untuk Azure
    Secara default, Anda tidak dapat menyambungkan ke Azure Data Lake Store. Anda perlu menginstal paket fitur untuk Azure di proyek SSIS.
  1. Buat Azure Data Lake Store (ADLS) di Portal Azure
    Jika Anda tidak memiliki Azure Data Lake Store, Anda harus membuat yang baru. Kami akan membuat folder di ADLS ini dan kami akan mengimpor data dari folder lokal di sini.
  1. Buat pendaftaran aplikasi
    Di Portal Azure, di opsi Azure Active Directory (AAD), ada opsi untuk pendaftaran aplikasi. Kami akan menggunakan pendaftaran aplikasi untuk mengakses ADLS.
  1. Tetapkan izin ke ADLS
    Di ADLS di Data Explorer, Anda perlu memberikan akses ke pendaftaran Aplikasi.
  1. Mengekspor file ke ADLS dengan SSIS
    Menggunakan tugas ADLS untuk SSIS di SSDT, Anda dapat mengekspor data dari file lokal ke SSIS. Untuk tujuan ini, Anda memerlukan URL ADLS, ID Aplikasi pendaftaran Aplikasi, dan Kunci pendaftaran Aplikasi.
  1. Verifikasi hasilnya
    Terakhir, di Portal Azure, buka ADLS, Jelajahi Data, dan verifikasi bahwa file berhasil disalin.

Persyaratan

Perangkat lunak berikut diperlukan untuk artikel ini:

  1. SSIS Terpasang (disertakan dengan penginstal SQL Server)
  2. Alat Data Server SQL (SSDT) ​​diinstal
  3. Akun Azure
  4. Paket Fitur SSIS untuk Azure

Mulai

1. Instal paket Fitur SSIS untuk Azure
Ada Paket Fitur gratis untuk SSIS yang mencakup tugas untuk terhubung ke Azure. Paket fitur SSIS perlu diinstal. Paket ini mencakup beberapa tugas untuk bekerja dengan Big Data di Azure (HDInsight), Azure Blob Storage, Azure Data Lake Store, Azure Data Warehouse, dan lainnya:

Penginstalnya berukuran 29 MB. Ada versi untuk 32 dan 64 bit.

2. Buat Azure Data Lake Store (ADLS) di Portal Azure
Anda juga perlu berlangganan Azure. Ada edisi percobaan untuk pemula yang ingin mempelajari teknologi baru ini. Kami akan membuat Azure Data Lake Store. Penyimpanan Data Lake adalah tempat Anda menyimpan data Anda di Azure untuk analitik. Masuk ke Portal Azure dan buka lebih banyak layanan (>) dan di kotak teks pencarian tulis Data Lake Store. Pilih Penyimpanan Data Lake:

Saya berasumsi bahwa Anda belum memiliki Data Lake Store, jadi kami akan membuat yang baru dengan menekan ikon +Tambah:

Tentukan nama untuk Data Lake Store. Grup sumber daya adalah untuk menangani beberapa sumber daya Azure dalam grup. Lokasi adalah untuk menentukan lokasi yang paling dekat dengan Anda. Anda dapat membayar untuk konsumsi. Harganya sekitar 0,39 USD per GB. Semakin banyak TB, semakin murah. Ada juga biaya per operasi baca dan tulis (10.000 operasi tulis per $0,05 dan 10.000 operasi baca per $0,004).

Setelah dibuat, klik Data Lake Store:

Untuk membuat folder dan menambahkan file, buka Data Explorer:

Buat Folder Baru. Kami akan mengunggah file ke folder ini. Tetapkan nama dan tekan OK:

3. Buat pendaftaran aplikasi
Kami akan membuat pendaftaran Aplikasi untuk mengakses Data Lake. Dalam pendaftaran Aplikasi, Anda mendaftarkan aplikasi Anda dan Anda diberi ID aplikasi dan kunci. Untuk melakukannya, kita perlu membuka Layanan lainnya>Direktori Aktif:

Buka Pendaftaran aplikasi:

Tambahkan nama. Jenis aplikasinya adalah Web app/API (default). URL dapat berupa URL apa pun untuk preferensi Anda:



Klik aplikasi yang baru saja dibuat:


Untuk menyambungkan ke Azure Data Lake Store, Anda memerlukan ID Aplikasi:

Dalam pendaftaran Aplikasi, buka kunci. Buat kunci baru dan tetapkan durasi kedaluwarsa untuk kunci tersebut. Salin dan tempel nilainya di suatu tempat. Nilai ini akan diperlukan untuk terhubung ke Azure Data Lake Store:

Buka Data Lake Store dan salin URL di bagian Ikhtisar. Informasi ini juga berguna untuk terhubung menggunakan SSIS:


4. Tetapkan izin ke ADLS
Kami akan memberikan izin untuk pendaftaran Aplikasi kami. Izin ini akan memungkinkan akses ke ADLS. Buka Penjelajah Data:

Tekan opsi Akses untuk menambahkan Pendaftaran Aplikasi:


Tekan +Tambah opsi untuk menambahkan pendaftaran Aplikasi:

Di kotak teks, tulis AppService dan tekan tombol Pilih:


Tetapkan izin baca, tulis, dan eksekusi. Anda dapat menambahkan izin ke folder dan folder dan semua anak.

Anda juga dapat menetapkan akses, izin default, dan keduanya:

5. Mengekspor file ke ADLS dengan SSIS
Di SSDT, buat proyek SSIS. Jika Anda menginstal paket fitur untuk Azure, Anda akan dapat melihat Tugas Sistem File Penyimpanan Data Lake Azure. Seret dan lepas tugas ini ke panel desain:

Klik dua kali Tugas Sistem File Penyimpanan Data Lake Azure. Ada 2 kemungkinan operasi. Untuk menyalin dari Azure Data Lake (ADL) atau menyalin ke ADL. Dalam contoh ini, kita akan menyalin dari file lokal ke ADL. Di sumbernya, kita akan menggunakan folder c:\sql, kita akan memiliki beberapa file lokal untuk disalin ke ADL. Di AzureDataLakeDirectory, kita akan menggunakan folder yang dibagikan. Folder ini dibuat di ADL Store pada langkah sebelumnya. AzureDataLakeConnection akan dijelaskan nanti. Tinggal masa berlaku file (opsi ini digunakan untuk menentukan kapan file kedaluwarsa):

Di AzureDataLakeConnection, kami akan memilih opsi Koneksi Baru untuk membuat yang baru:

Dalam koneksi, Anda memerlukan host ADLS. Ini adalah URL saat Anda membuka bagian Ikhtisar ADLS di portal. Dalam Otentikasi, kami akan menggunakan Identitas Layanan Azure AD. Opsi ini menggunakan Pendaftaran Aplikasi yang dibuat di Azure.

ID Klien adalah ID Aplikasi dari Pendaftaran Aplikasi. Anda dapat menemukan informasi ini di bagian Pendaftaran Aplikasi di Azure AD.

Kunci rahasia dapat ditemukan di portal di Pendaftaran Aplikasi di Azure AD di bagian kunci. Anda dapat membuat kunci dan menggunakan nilainya di bagian ini.

Nama penyewa adalah nama domain Azure AD (kami akan menjelaskan Domain Azure).

Tekan koneksi uji untuk memverifikasi bahwa semuanya baik-baik saja. Setelah itu baik-baik saja, tekan OK:

Jika Anda tidak mengetahui domain Anda (Nama Penyewa), Anda dapat memeriksanya dengan mengklik di bagian kanan atas Portal.


Anda dapat menjalankan paket SSIS untuk mengekspor data ke ADLS. Dalam contoh ini, kami memiliki 3 file di folder lokal.

6. Verifikasi hasilnya
Jika semuanya OK, di Portal Azure, buka ADLS dan buka Data Explorer. Buka folder bersama dan periksa file di sana. Anda akan dapat melihat 5 file yang disalin.


Ekspor data dari Data Lake ke SQL Server lokal

Di bagian kedua, kami akan mengekspor data yang disimpan di Azure Data Lake ke SQL Server di tempat. Seret dan lepas tugas Aliran Data:

Klik dua kali tugas Aliran Data dan seret dan lepas Sumber Penyimpanan Danau Data Azure dan Tujuan SQL Server. Hubungkan kedua tugas. Klik dua kali Azure Data Lake Store Sumber:

Pilih Koneksi ADLS yang dibuat di bagian pertama artikel. Di jalur, tentukan jalur ADLS (nama folder/file). Dalam skenario ini, format file adalah teks dan pembatasnya adalah koma:

Di kolom, Anda dapat melihat kolom. Jika tidak ada kolom. Header kolom default dibuat:

Klik dua kali Tujuan SQL Server. Tekan Baru untuk membuat pengelola koneksi:

Buat koneksi baru. Tentukan nama SQL Server, otentikasi dan database tempat Anda ingin menyimpan data:

Di tabel atau tampilan, tekan Baru untuk membuat tabel baru:



Secara default, Anda akan memiliki kode T-SQL berikut:

Ubah kode untuk menentukan nama tabel dan beri nama kolom:

CREATE TABLE [smartphones] (

    [ID] int,

    Brand nvarchar(100),

    Version nvarchar(100)

)

Buka halaman Pemetaan dan tetapkan Prop_0 ke ID, Prop_1 ke Merek, Prop_2 ke Versi:

Anda akan mengalami kesalahan di SQL Server Destination. Bahwa kolom tidak dapat disisipkan karena masalah konversi. Ini karena Prop_0 adalah string dan tabel SQL Server adalah bilangan bulat:

Seret dan lepas tugas Konversi Data dan hubungkan antara Azure Data Lake Store Source dan SQL Server Destination:

Klik dua kali konversi data, pilih Prop_0 dan ubah Tipe Data menjadi bilangan bulat bertanda empat byte [DT_I4] dan tetapkan alias. Konversi data membuat kolom lain dengan tipe data yang berbeda:

Kembali ke SQL Destination Editor dan cocokkan Prop_0int dengan ID:

Jalankan paket SSIS. Di SSMS, verifikasi bahwa tabel dbo.smartphones telah dibuat dan periksa apakah data telah diimpor:

Jika Anda memiliki pertanyaan atau masalah, jangan ragu untuk menulis komentar Anda.

Kesimpulan

Azure Data Lake adalah penyimpanan khusus dengan kinerja tinggi untuk menangani Big Data. Untuk memigrasikan data dari Server lokal ke Azure, Anda dapat menggunakan SSIS. Untuk melakukannya, Anda memerlukan Paket Fitur baru untuk Azure. Paket ini menginstal Tugas baru untuk terhubung ke ADLS.

Untuk terhubung ke ADLS menggunakan SSIS, kami membuat pendaftaran Aplikasi AAD dengan izin untuk itu.

SSIS memungkinkan mengunggah file ke ADLS dengan mudah. Anda hanya perlu menentukan URL ADLS dan Kunci pendaftaran aplikasi serta ID aplikasi.

Kami juga menunjukkan cara mengekstrak data dari ADLS ke tabel di SQL Server lokal.

Referensi

Untuk informasi lebih lanjut tentang SSIS, Data Lake Store, Pendaftaran aplikasi, gunakan tautan berikut:

  • Memperkenalkan Azure Data Lake
  • Pengelola Koneksi Toko Azure Data Lake
  • Paket Fitur Azure untuk Layanan Integrasi (SSIS)
  • Mengintegrasikan aplikasi dengan Azure Active Directory
  • Tugas Sistem File Penyimpanan Azure Data Lake
  • Daftarkan aplikasi Anda dengan penyewa Azure Active Directory

  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Apa dampak dari opsi kursor yang berbeda?

  2. Hire or Get Hire:Model Data untuk Proses Rekrutmen

  3. Referensi SQL untuk Pemula

  4. Apa Hubungan Poker, Blackjack, Belot, dan Preferensi dengan Basis Data?

  5. Ekspresi Tabel Umum:Kapan dan Bagaimana Menggunakannya