Oracle
 sql >> Teknologi Basis Data >  >> RDS >> Oracle

Perluas pemetaan lipat diakritik Endeca

Dalam dokumentasi yang Anda berikan menyatakan:

Ini menunjukkan bahwa bahasa Yunani tidak didukung karena tidak termasuk dalam set karakter ini (saya percaya bahasa Yunani adalah Latin-7). Karena itu, Anda dapat mencoba menyetel bendera bahasa pada tingkat rekor (karena Anda menunjukkan bahwa data Anda mencakup bahasa Inggris dan Yunani) dengan asumsi bahwa setiap bahasa memiliki catatannya sendiri atau mencoba menerapkan bahasa global menggunakan dgidx dan dgraph parameter tetapi ini akan memengaruhi hal-hal seperti stemming untuk record atau properti yang tidak dalam bahasa global.

dgidx --lang el
dgraph --lang el

Meskipun saya tidak yakin itu akan berhasil berdasarkan pernyataan aslinya.

Atau, Anda dapat menerapkan proses penghapusan diakritik menggunakan Accessor khusus , yang memperluas atg.repository.search.indexing.PropertyAccessorImpl class (opsi karena Anda merujuk ke Nucleus , jadi saya berasumsi Anda menggunakan ATG/Oracle Commerce). Dengan menggunakan ini, Anda menentukan bidang yang dapat dicari yang dinormalisasi dalam indeks Anda yang menduplikasi bidang yang dapat dicari di indeks Anda saat ini tetapi sekarang dengan semua diakritik dihapus. Logika yang sama yang Anda terapkan di Accessor maka perlu diterapkan sebagai praprosesor pada istilah pencarian Anda sehingga Anda menormalkan input agar sesuai dengan nilai yang diindeks. Terakhir, buat bidang asli Anda dalam indeks (dengan karakter yang ditekankan) hanya ditampilkan dan bidang yang dinormalisasi dapat ditelusuri (tetapi jangan tampilkan).

Hasilnya akan cocok dengan teks Anda yang dinormalisasi tetapi kelemahannya adalah Anda memiliki data yang diduplikasi sehingga indeks Anda akan lebih besar. Bukan masalah besar dengan kumpulan data kecil. Mungkin juga ada dampak pada bagaimana fungsionalitas OOTB, seperti stemming, berperilaku dengan kumpulan data yang dinormalisasi. Anda harus melakukan beberapa pengujian dengan berbagai skenario dalam bahasa Yunani dan Inggris untuk melihat apakah presisi dan recall terpengaruh secara negatif.




  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. KESALAHAN pada baris 191:ORA-01489:hasil rangkaian string terlalu panjang

  2. Baris hilang saat menanyakan tabel dengan Doctrine (Symfony2)

  3. Kesalahan (ORA-21700) dengan Operator Tabel setelah memperbarui ke Oracle 12.2 dari 12.1

  4. Cara mengatasi ORA-28000 akun terkunci

  5. Perbandingan penyedia yang kompatibel dengan Entity Framework untuk Oracle?