Klasifikasi Data di Meja Kerja IRI

Pengguna alat penyamaran PII seperti FieldShield, DarkShield, dan CellShield EE di IRI Data Protector Suite atau platform Voracity dapat membuat katalog dan menelusuri data mereka — serta menerapkan fungsi transformasi dan perlindungan data sebagai aturan — menggunakan data klasifikasi infrastruktur di IDE front-end umum mereka, IRI Workbench, dibangun di atas Eclipse™.

Fasilitas penemuan (pencarian) data multi-sumber di IRI Workbench dapat menggunakan kelas data yang telah Anda tetapkan, atau dapat membantu Anda menetapkan kelas data atau grup kelas data ke data Anda berdasarkan hasil penelusuran, aturan bisnis, dan/atau ontologi domain.

Anda dapat menggunakan perpustakaan kelas data Anda dalam aturan bidang yang dapat digunakan kembali (misalnya, penyembunyian data). Dan Anda juga dapat menetapkan aturan tersebut saat mengklasifikasikan data secara otomatis.

Fitur-fitur ini memberikan kemudahan, konsistensi, dan kemampuan kepatuhan kepada arsitek data dan tim tata kelola. Lihat artikel ini untuk contoh ujung ke ujung penggunaan kelas data untuk menemukan dan menutupi data secara konsisten di beberapa tabel dalam skema RDB.

Artikel ini menjelaskan bagaimana Anda dapat mendefinisikan kelas-kelas ini. Terdapat artikel terkait validator kelas data yang dapat digunakan untuk membedakan dan memverifikasi data berdasarkan penelusuran pola.

Beberapa artikel lain di blog IRI mencakup penerapan kelas data dalam berbagai konteks (kebanyakan data masking). Untuk indeks lengkap artikel ini, lihat bagian halaman belajar mandiri perangkat lunak IRI ini.

Buat Kelas Data

Klasifikasi dimulai dengan menyiapkan kelas data di Workbench Preferences screen, yang memungkinkan Anda menggunakan kelas secara global, di beberapa proyek di ruang kerja Anda. Workbench memiliki beberapa kelas yang telah dimuat sebelumnya, termasuk kelas FIRST_NAME, LAST_NAME, dan PIN_US yang digunakan dalam contoh ini.

Kelas data bekerja dengan mencocokkan (1) nama kelas dengan nama bidang, (2) pola ke data di bidang, atau (3) mengatur konten file dengan data di bidang. Item pertama dilakukan untuk Anda secara otomatis dalam proses klasifikasi, jika opsi itu dipilih. Anda dapat menambahkan pola dan menyetel pencocokan file sebanyak yang Anda perlukan untuk setiap kelas untuk mengembalikan hasil yang diinginkan.

Memasukkan ekspresi reguler sebagai nama kelas data adalah cara tambahan untuk mencocokkan nama kolom. Misalnya, mungkin ada kolom bernama LNAME atau LASTNAME. Jadi, saya bisa menggunakan L(AST)?[_-]?NAME (garis bawah dan tanda hubung dalam tanda kurung) untuk menangkap beberapa variasi NAMA TERAKHIR.

Anda juga dapat membuat kelas dan grup data Anda tidak aktif. Jika Anda memiliki banyak kelas tetapi ingin memfilter item yang tidak digunakan dalam proyek khusus Anda, Anda dapat membuatnya tidak aktif. Ini memungkinkan Anda untuk menyimpan salinannya tetapi tidak mengacaukan daftar tarik-turun yang menggunakan kelas-kelas ini.

Grup Kelas Data

Anda juga dapat memiliki grup kelas data. Misalnya, grup “NAMES” yang disertakan berisi kelas data FIRST_NAME, LAST_NAME, dan FULL_NAME. Jika Anda ingin menerapkan aturan ke beberapa kelas, Anda dapat menggunakan grup daripada memilih kelas data satu per satu.

Untuk contoh ini, saya menghapus garis bawah dari kelas data FIRST_NAME untuk menunjukkan opsi klasifikasi pencocokan nama.

Wizard Sumber Klasifikasi Data

Setelah pencocokan telah ditambahkan ke kelas yang dibutuhkan, Anda dapat menjalankan Panduan Sumber Klasifikasi Data. Wizard menerima format data berikut:CSV, Delimited, LDIF, ODBC, atau XML. Wizard ini menyediakan sarana untuk memilih sumber untuk perpustakaan kelas data Anda untuk klasifikasi nanti.

Pada halaman penyiapan, mulailah dengan memilih lokasi “iriLibrary.dataclass . baru Anda ”, yang merupakan output dari wizard ini. Nama file bersifat baca-saja karena hanya ada satu dari jenis file ini di setiap proyek. Anda juga dapat memilih kotak centang jika semua sumber Anda adalah tabel dalam profil koneksi.

Memilih kotak ini akan membuka halaman input seperti di bawah ini di mana Anda dapat memilih tabel yang akan disertakan:

Jika kotak centang tidak dipilih, Anda dapat menambahkan file atau sumber ODBC di layar input yang sama. Pada jenis halaman masukan ini, Anda juga perlu menambahkan metadata untuk setiap sumber. Dalam contoh ini, saya telah menyertakan file CSV dan dua tabel Oracle.

Jika Anda perlu mencari dan mengklasifikasikan data di satu atau lebih skema database lengkap sekaligus, gunakan Pencarian Pola Skema dan Pencarian Pola Skema ke panduan Asosiasi Kelas Data.

Mengklik Selesai akan membuat perpustakaan kelas data dengan sumber yang dipilih disertakan. Editor formulir kelas data yang terbuka akan memungkinkan Anda untuk mengklasifikasikan data dalam sumber tersebut.

Mengklasifikasikan Data Dalam Sumber Pilihan Anda

Anda memulai proses klasifikasi dengan mengklik salah satu sumber data untuk menampilkan detail tentang sumber tersebut. Bagian atas layar memiliki bagian yang dapat diperluas yang menampilkan detail file atau tabel.

Bagian klasifikasi dimulai dengan kotak centang untuk menyertakan pencocokan melalui nama bidang ke nama kelas data. Misalnya, saya memiliki kelas data bernama FIRSTNAME dan bidang bernama FIRSTNAME (pencocokan tidak peka huruf besar/kecil).

Dalam hal ini, proses klasifikasi akan memilih kelas data tersebut untuk bidang tersebut tanpa membaca konten data.

Bagian berikutnya menampilkan tabel yang berisi nama bidang dengan kotak centang, kolom untuk kelas data, dan kolom untuk hasil yang cocok. Tabel bawah adalah pratinjau data di sumber. Kelas data yang diperlukan seharusnya sudah dibuat sebelum menggunakan editor formulir ini, tetapi Anda dapat menambahkan atau mengeditnya di sini.

Anda dapat memilih kelas data secara manual dengan mengklik kotak drop-down di kolom kelas data dari bidang yang ingin Anda klasifikasi. Anda juga dapat mengklik Klasifikasi Otomatis dan memilih bidang yang ingin Anda klasifikasi. Mengklik OK akan memulai proses klasifikasi otomatis, yang dapat memakan waktu lama tergantung pada jumlah data yang Anda miliki di sumber Anda.

Proses dapat berjalan di latar belakang jika Anda memilih opsi itu di dialog Eclipse standar yang ditampilkan. Selain itu, Anda dapat melihat status proses di Progress View.

Setelah selesai, kelas data dan peta kelas data akan dibuat di perpustakaan untuk bidang yang dipilih. Dalam contoh ini, proses klasifikasi menemukan kecocokan 87% pada kolom SSN, 11% pada NAMA TERAKHIR, dan kecocokan nama pada NAMA DEPAN. Persentase menunjukkan jumlah data yang cocok di sumber Anda melalui pencocokan untuk kelas data tersebut.

Jika "nama" ditampilkan di kolom yang cocok, maka kelas data dicocokkan berdasarkan nama. Jika Anda memilih kelas data secara manual, maka “pengguna” akan ditampilkan di kolom yang cocok.

Isi perpustakaan akhir ditampilkan di bawah ini. Sama seperti Anda dapat melihat detail sumber, Anda juga dapat mengklik kelas data dan peta untuk menampilkan detailnya.

Peta kelas data menggunakan referensi ke kelas dan bidang data, yang merupakan alasan perpustakaan menyimpan sumber dan kelas data, selain peta itu sendiri. Menghapus sumber atau kelas data juga akan menghapus semua peta kelas data terkait yang mereferensikan item yang dihapus tersebut.

Saat mengklik Hapus, peringatan akan ditampilkan untuk mengingatkan Anda tentang hal ini. Proses ini dapat diulang pada sumber lain yang disertakan, dan sumber tambahan dapat ditambahkan kapan saja.

Hasil klasifikasi perpustakaan ini sekarang dapat digunakan untuk menerapkan aturan bidang ke sumber data tersebut. Prosesnya dijelaskan di artikel saya selanjutnya tentang Menerapkan Aturan Lapangan Menggunakan Klasifikasi.