Database
 sql >> Teknologi Basis Data >  >> RDS >> Database

Menganonimkan Pengidentifikasi Tidak Langsung untuk Menurunkan Risiko ID Ulang

Pengidentifikasi kuasi, atau pengidentifikasi tidak langsung, adalah atribut pribadi yang benar tentang, tetapi tidak harus unik, untuk seorang individu. Contohnya adalah usia atau tanggal lahir seseorang, ras, gaji, pencapaian pendidikan, pekerjaan, status perkawinan, dan kode pos. Bandingkan ini dengan pengenal unik langsung seperti nama lengkap resmi seseorang, alamat email, nomor telepon, ID nasional, paspor atau nomor kartu kredit, dll.

Sebagian besar konsumen sudah menyadari risiko berbagi informasi identitas pribadi (PII) mereka yang unik. Industri keamanan data biasanya juga berfokus pada pengenal langsung tersebut. Namun hanya dengan jenis kelamin, tanggal lahir, dan kode pos, 80-90% populasi AS dapat diidentifikasi.

Hampir semua orang dapat diidentifikasi ulang dari kumpulan data yang disamarkan jika pengidentifikasi tidak langsung cukup dan dapat digabungkan ke populasi superset dengan nilai yang sama.

Aturan Metode Penentuan Ahli HIPAA yang berkaitan dengan informasi kesehatan yang dilindungi (PHI) dan undang-undang FERPA mengenai privasi data siswa mempertimbangkan masalah ini dan mengharuskan kumpulan data memiliki kemungkinan pengidentifikasian ulang yang rendah secara statistik (di bawah 20% adalah standar saat ini). Mereka yang ingin menggunakan data perawatan kesehatan dan pendidikan untuk tujuan penelitian dan/atau pemasaran harus mematuhi undang-undang tersebut, tetapi juga bergantung pada akurasi demografis dari quasi-identifier agar data menjadi berharga.

Untuk alasan ini, pekerjaan penyamaran data dalam produk IRI FieldShield atau IRI Voracity (platform manajemen data) dapat menerapkan satu atau beberapa teknik tambahan untuk mengaburkan data, sambil tetap menjaganya agar cukup akurat untuk tujuan penelitian atau pemasaran. Misalnya, fungsi pengaburan numerik membuat kebisingan acak untuk rentang usia dan tanggal tertentu, seperti yang dijelaskan dalam artikel ini.

Berdasarkan artikel di sini, contoh ini akan menunjukkan bagaimana IRI Workbench dapat membuat dan menggunakan file yang ditetapkan untuk menganonimkan quasi-identifier.

Mulai di Generalisasi melalui Bucketing Wizard, tersedia dari daftar aturan perlindungan data:

Setelah wizard terbuka, mulailah menentukan sumber nilai untuk file yang ditetapkan, termasuk format sumber dan bidang yang memerlukan nilai penggantian umum.

Pada halaman berikutnya, ada dua jenis substitusi set file:Gunakan file set sebagai grup dan Gunakan file set sebagai rentang pilihan. Contoh ini menggunakan Gunakan file set sebagai grup pilihan. Artikel tentang pengaburan data mendemonstrasikan Gunakan file yang disetel sebagai rentang pilihan. Kumpulan pencarian yang dibangun di sini akan digunakan untuk menyamarkan pengenal kuasi asli dengan nilai generalisasi baru.

Halaman ini adalah tempat pengelompokan di antara masing-masing nilai bidang pengenal kuasi asli dibuat. Di sebelah kiri adalah nilai unik di bidang yang dipilih sebelumnya. Grup dapat dibuat dengan menyeret dan menjatuhkan ke nilai grup di sebelah kiri, atau dengan memasukkan nilai secara manual. Setiap kelompok juga membutuhkan nilai pengganti yang unik. Ini adalah nilai yang akan menggantikan nilai asli dalam grup. Dalam contoh ini, nilai "9" akan diganti dengan "SMA".

Menambahkan grup hingga semua nilai sumber tercakup menghasilkan file kumpulan pencarian berikut untuk menganonimkan pengenal kuasi status pendidikan:

Jika level bucketing tambahan diperlukan, wizard bucketing dapat dijalankan kembali menggunakan file yang ditetapkan ini sebagai sumbernya.

Saat file kumpulan digunakan dalam pekerjaan anonimisasi data, data sumber dibandingkan dengan nilai di kolom pertama file kumpulan. Jika kecocokan ditemukan, data diganti dengan nilai di kolom kedua. File set di atas digunakan dalam skrip di bawah ini pada baris 38.

Menggunakan Workbench untuk menerapkan lima teknik anonimisasi yang berbeda menghasilkan skrip berikut:


Sepuluh baris pertama dari data asli ditampilkan di sini:

Hasil anonim setelah menjalankan pekerjaan ditampilkan di sini:

Sebelum generalisasi ini, risiko identifikasi ulang berdasarkan nilai pengidentifikasian tidak langsung asli terlalu tinggi. Tetapi ketika kumpulan hasil yang lebih umum dijalankan kembali melalui wizard penilaian risiko untuk menghasilkan penentuan risiko identifikasi ulang lainnya, risiko tersebut dapat diterima dan datanya masih berguna untuk tujuan penelitian atau pemasaran.

Jika Anda memiliki pertanyaan tentang fungsi ini atau penilaian risiko ID ulang, hubungi .


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. PEMBARUAN untuk Statistik

  2. Kasus penggunaan untuk sp_prepare / sp_prepexec

  3. Cara memigrasi database dan file data

  4. Menghubungkan MS SQL ke IRI Workbench

  5. SQL IN vs SQL ADA