Mysql
 sql >> Teknologi Basis Data >  >> RDS >> Mysql

Bagaimana cara membangun mesin 'pertanyaan terkait'?

Jika Anda ingin membuat sendiri sesuatu seperti ini dari awal, Anda akan menggunakan sesuatu yang disebut TF/IDF:Term Frequency / Inverse document frequency. Artinya, untuk menyederhanakannya, Anda menemukan kata-kata dalam kueri yang tidak umum dalam korpus secara keseluruhan dan menemukan dokumen yang memiliki kata-kata tersebut.

Dengan kata lain, jika seseorang memasukkan kueri dengan kata-kata "Saya ingin membeli gajah" di dalamnya, maka dari kata-kata dalam kueri tersebut, kata "gajah" mungkin adalah kata yang paling tidak umum di korpus Anda. "Beli" mungkin berikutnya. Jadi, Anda memberi peringkat pada dokumen (dalam kasus Anda, kueri sebelumnya) berdasarkan seberapa banyak dokumen tersebut mengandung kata "gajah" dan kemudian seberapa banyak dokumen tersebut mengandung kata "beli". Kata-kata "saya", "kepada" dan "an" mungkin ada dalam daftar berhenti, jadi Anda mengabaikannya sama sekali. Anda memberi peringkat setiap dokumen (kueri sebelumnya, dalam kasus Anda) berdasarkan jumlah kata yang cocok (pembobotan menurut frekuensi dokumen terbalik -- yaitu bobot tinggi untuk kata-kata yang tidak umum) dan tunjukkan beberapa kata teratas.

Saya telah terlalu menyederhanakan, dan Anda perlu membaca ini untuk melakukannya dengan benar, tetapi sebenarnya tidak terlalu rumit untuk diterapkan dengan cara yang sederhana. Halaman Wikipedia mungkin tempat yang baik untuk memulai:

http://en.wikipedia.org/wiki/Tf%E2%80 %93idf



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Membuat umpan dari beberapa model rel, secara efisien?

  2. Kapan menggunakan tanda kutip tunggal, tanda kutip ganda, dan tanda kutip di MySQL

  3. Bagaimana saya bisa menggunakan Variabel Buatan Pengguna MySql di .NET MySqlCommand?

  4. MySQL ON DUPLICATE KEY UPDATE untuk memasukkan beberapa baris dalam satu permintaan

  5. Apakah ada implementasi CachedRowSet yang bagus selain yang dimiliki Sun?