Apakah PostgreSQL menggunakan tf-idf?

Tidak. Dalam fungsi ts_rank, tidak ada metode asli untuk memeringkat hasil menggunakan frekuensi global (korpus). Namun, algoritme peringkat memberi peringkat berdasarkan frekuensi dalam dokumen:

https://www.postgresql.org/docs/9.3/static /textsearch-controls.html

Jadi jika saya mencari "anjing|chihuahua" dua dokumen berikut akan memiliki peringkat yang sama meskipun frekuensi kata "chihuahua" relatif lebih rendah:

"I want a dog"
"I want a chihuahua"

Namun, baris berikut akan mendapatkan peringkat lebih tinggi dari dua baris sebelumnya di atas, karena mengandung token "anjing" bertangkai dua kali dalam dokumen:

"dog lovers have an average of 1.5 dogs"

Singkatnya:frekuensi istilah yang lebih tinggi dalam dokumen menghasilkan peringkat yang lebih tinggi, tetapi frekuensi istilah yang lebih rendah dalam korpus tidak berdampak.

Satu peringatan:pencarian teks mengabaikan stop-words, jadi Anda tidak akan cocok dengan kata-kata frekuensi ultra tinggi seperti "the","a",,"of","for" dll (dengan asumsi Anda telah mengatur bahasa Anda dengan benar)