Jika Anda sama sekali tidak memiliki data tentang masalah Anda, Anda terpaksa melakukan perkiraan.
Bentuk umum dari rumus tersebut dijelaskan di komentar:
- jika kita hanya menggunakan satu kolom kunci (
x
) dari indeks multikolom (denganc
kolom), kita mendapatkana
baris (1% dari total baris). Jadi untukx=1
, hasilnya adalaha
Menurut definisi. - jika kita mengetahui nilai untuk setiap kolom kunci dari indeks multikolom, kita mendapatkan jumlah baris per seluruh kunci (
b
); jadi untukx=c
, kita mendapatkanb
baris (yaitu 1 atau 10 ) menurut definisinya. - di antara (jika kita menggunakan nilai kunci untuk lebih dari 1 kolom kunci, tetapi tidak semua), untuk setiap nilai kunci tambahan yang diketahui, kita dapat mengecualikan beberapa baris tambahan:kita memiliki
a-b
baris yang tidak termasuk dalam kasus di mana kita tahu penuh . kita kunci (yang akan memilikib
baris), dan menurut definisi mereka harus dikecualikan secara proporsional dengan rasio kolom kunci yang dapat digunakan ((x-1)/(c-1)
). -1
di(x-1)/(c-1)
hanyalah sebuah shift (Anda bisa menggunakan nama variabel yang berbeda), karena kita hanya perlu menghitung tambahan kolom, tetapic
danx
adalah hitungan termasuk kolom pertama. (Dalam deret waktu, Anda akan memanggil parameter untuk kolom pertamat=0
, dan-1
melakukan hal itu).
Jadi kesimpulannya kita mendapatkan a - (a-b) * (x-1)/(c-1)
(a
untuk kolom kunci pertama dikurangi baris yang kami kecualikan secara proporsional). Ini (jika Anda mengubah ekspresi itu sedikit) persis dengan rumus yang diberikan. Pemeriksaan kewarasan cepat:Untuk x=1
(x-1=0
), suku kedua adalah 0 dan kita mendapatkan a
, seperti yang didefinisikan oleh kondisi pertama; untuk x=c
, kita mendapatkan a-(a-b)=b
seperti yang didefinisikan oleh kondisi kedua.
Bukan tidak masuk akal untuk membuat ansatz ini menggunakan asumsi-asumsi ini, tetapi Anda mungkin dapat menemukan formula lain yang lebih masuk akal. Berdebat bahwa itu lebih baik akan menjadi tugas yang lebih sulit.
Lalu ada soal memilih nilai (b=10
dan 1%
pada kasus ini). Anda jelas dapat memilih nilai apa pun. Untuk melakukan ini tanpa data yang dapat diandalkan kecuali firasat, ada konsep yang disebut Perkiraan Fermi :
Anda pada dasarnya memilih hanya urutan magnit (1, 1000000, 1/100) untuk parameter input Anda, dan Anda mendapatkan urutan besarnya yang wajar untuk hasil Anda.
Jadi, berapa banyak baris yang Anda harapkan untuk dicakup oleh kunci yang tidak unik? Ini lebih dari 1, jika tidak, Anda akan menjadikannya kunci unik, tetapi apakah lebih seperti 2, 10 atau 100? 10 mungkin merupakan tebakan yang bagus (mencakup nilai dari sekitar 3 hingga 30 dalam perkiraan itu). Jadi, meskipun angka ini mungkin berasal dari survei selama 2 tahun di seluruh dunia tentang distribusi kunci, nilai perkiraan dalam pangkat 10 biasanya diturunkan dengan cara seperti itu. Jika Anda ingin benar-benar yakin, tanyakan pada pengembangnya.
Dan xkcd wajib untuk topik seperti ini:Bagaimana-jika? Melukis Bumi