Database
 sql >> Teknologi Basis Data >  >> RDS >> Database

Profil Data:Menemukan Detail Data

Pembuatan profil data, atau penemuan data, mengacu pada proses memperoleh informasi dari, dan statistik deskriptif tentang, berbagai sumber data. Tujuan pembuatan profil data adalah untuk mendapatkan pemahaman yang lebih baik tentang konten data, serta struktur, hubungan, dan tingkat akurasi dan integritasnya saat ini.

Pembuatan profil data dapat mengungkapkan kesalahan dalam, atau kesimpulan yang salah tentang metadata (data tentang data). Menemukan masalah ini sejak dini membantu meningkatkan kualitas data sumber sebelum mengintegrasikan atau menyimpannya di gudang data. Memahami atribut data dalam tabel database atau file yang diekstrak, dan memeriksa nilai data, membantu memvalidasi bahwa konten data benar-benar cocok dengan definisi metadatanya. Melihat data dan metadata juga membantu mengidentifikasi item mana yang sensitif, atau berisi informasi pengenal pribadi (PII), sehingga kolom tertentu dapat ditandai untuk tindakan perlindungan. Dengan demikian, pembuatan profil data menemukan karakteristik data sumber yang diperlukan untuk identifikasi, penggunaan, dan garis keturunan data dalam integrasi, keamanan, pelaporan, dan proses lain yang mengikutinya.

Meskipun data yang dikumpulkan seringkali tampak tidak berbahaya atau tidak berguna, terutama jika dikumpulkan dari berbagai sumber, perlu diingat bahwa semua data mungkin berguna dengan aplikasi atau algoritme yang tepat. Dengan demikian, pembuatan profil data juga merupakan langkah pertama dalam menentukan kegunaan tersebut (dengan meningkatkan pemahaman tentang data itu sendiri).

Karena banyak bisnis pada akhirnya bergantung pada sumber data mentah untuk mendapatkan wawasan tentang hal-hal seperti inventaris produk, demografi klien, kebiasaan membeli, dan proyeksi penjualan, kemampuan perusahaan untuk mendapatkan keuntungan secara kompetitif dari volume data yang terus meningkat dapat berbanding lurus dengan kapasitasnya untuk memanfaatkan data tersebut. aktiva. Memenangkan/kehilangan pelanggan dan berhasil/gagal sebagai bisnis dapat sangat ditentukan oleh pengetahuan khusus yang diberikan oleh data yang dikumpulkan organisasi. Oleh karena itu, mengidentifikasi data yang tepat, menetapkan kegunaannya pada tingkat yang tepat, dan menentukan cara mengelola anomali — sangat penting dalam desain operasi pergudangan data dan aplikasi intelijen bisnis.

Menurut Doug Vucevic dan Wayne Yaddow, penulis Testing the Data Warehouse Practicum, “...tujuan pembuatan profil data adalah untuk memvalidasi metadata ketika tersedia dan untuk menemukan metadata ketika tidak. Hasil analisis digunakan baik secara strategis – untuk menentukan kesesuaian sistem sumber kandidat dan memberikan dasar untuk keputusan awal/tidak, tetapi secara taktis, untuk mengidentifikasi masalah untuk desain solusi selanjutnya, dan untuk menyamakan harapan sponsor.

Otoritas data merekomendasikan untuk melakukan pembuatan profil data secara acak dan berulang pada jumlah data yang terbatas, daripada mencoba menangani volume yang besar dan kompleks sekaligus. Dengan begitu penemuan-penemuan tersebut dapat menjadi faktor penentu apa yang harus diprofilkan selanjutnya. Mengidentifikasi aturan data, batasan, dan prasyarat, memastikan integritas metadata tempat pembuatan profil di masa mendatang. Mengetahui apa yang seharusnya berada di file data tertentu dan apa yang sebenarnya mungkin tidak ada hal yang sama. Jadi, setiap kali kualitas atau karakteristik sumber baru tidak diketahui, para ahli menyarankan pembuatan profil data terlebih dahulu, sebelum integrasi apa pun ke dalam sistem yang ada.

Langkah-langkah dalam proses pembuatan profil data meliputi: mengimpor semua objek, membuat parameter konfigurasi, melakukan pembuatan profil sebenarnya, dan menganalisis hasilnya; tidak ada yang semudah kedengarannya! Kemudian berdasarkan temuan, skema dan koreksi data dapat diterapkan, serta penyempurnaan lainnya untuk peningkatan kinerja pembuatan profil data selanjutnya.

Alat Pembuatan Profil IRI

Pada pertengahan 2015, IRI merilis serangkaian alat penemuan data database, terstruktur, dan tidak terstruktur (gelap) gratis di GUI Eclipse-nya, IRI Workbench. Mereka dirangkum di http://www.iri.com/products/workbench/discover-data dan menautkan ke artikel lain di blog ini yang membahas lebih detail.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Statistik Inkremental TIDAK digunakan oleh Pengoptimal Kueri

  2. Bagaimana Cara Membuat Tabel Sementara di SQL?

  3. Statistik Penantian Lutut :PAGELATCH

  4. Hasilkan bilangan bulat acak tanpa tabrakan

  5. Perpustakaan Jenis Tunggu SQLskills sekarang menampilkan data SentryOne