Dalam dokumentasi yang Anda berikan menyatakan:
Ini menunjukkan bahwa bahasa Yunani tidak didukung karena tidak termasuk dalam set karakter ini (saya percaya bahasa Yunani adalah Latin-7). Karena itu, Anda dapat mencoba menyetel bendera bahasa pada tingkat rekor (karena Anda menunjukkan bahwa data Anda mencakup bahasa Inggris dan Yunani) dengan asumsi bahwa setiap bahasa memiliki catatannya sendiri atau mencoba menerapkan bahasa global menggunakan dgidx
dan dgraph
parameter tetapi ini akan memengaruhi hal-hal seperti stemming untuk record atau properti yang tidak dalam bahasa global.
dgidx --lang el
dgraph --lang el
Meskipun saya tidak yakin itu akan berhasil berdasarkan pernyataan aslinya.
Atau, Anda dapat menerapkan proses penghapusan diakritik menggunakan Accessor
khusus , yang memperluas atg.repository.search.indexing.PropertyAccessorImpl
class (opsi karena Anda merujuk ke Nucleus
, jadi saya berasumsi Anda menggunakan ATG/Oracle Commerce). Dengan menggunakan ini, Anda menentukan bidang yang dapat dicari yang dinormalisasi dalam indeks Anda yang menduplikasi bidang yang dapat dicari di indeks Anda saat ini tetapi sekarang dengan semua diakritik dihapus. Logika yang sama yang Anda terapkan di Accessor
maka perlu diterapkan sebagai praprosesor pada istilah pencarian Anda sehingga Anda menormalkan input agar sesuai dengan nilai yang diindeks. Terakhir, buat bidang asli Anda dalam indeks (dengan karakter yang ditekankan) hanya ditampilkan dan bidang yang dinormalisasi dapat ditelusuri (tetapi jangan tampilkan).
Hasilnya akan cocok dengan teks Anda yang dinormalisasi tetapi kelemahannya adalah Anda memiliki data yang diduplikasi sehingga indeks Anda akan lebih besar. Bukan masalah besar dengan kumpulan data kecil. Mungkin juga ada dampak pada bagaimana fungsionalitas OOTB, seperti stemming, berperilaku dengan kumpulan data yang dinormalisasi. Anda harus melakukan beberapa pengujian dengan berbagai skenario dalam bahasa Yunani dan Inggris untuk melihat apakah presisi dan recall terpengaruh secara negatif.