MongoDB
 sql >> Teknologi Basis Data >  >> NoSQL >> MongoDB

Kata yang sama tetapi karakter unicode yang berbeda

Masalah yang Anda temui adalah, unicode memungkinkan banyak cara untuk membuat simbol yang sama. Modul Python unicodedata menyediakan fungsi normalize yang memungkinkan Anda mengonversi representasi unicode ke formulir yang tetap (mis. NFC)

from unicodedata import normalize

S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')

print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))

Dalam contoh tripadvisor Anda ditampilkan dalam bentuk NFD, sedangkan notepad menggunakan NFC.




  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Instalasi mongodb gagal menjalankan mongod

  2. Bagaimana cara mengubah bidang string yang dipisahkan koma menjadi array di mongodb

  3. sambungkan ECONNREFUSED 127.0.0.1:27017'

  4. bagaimana cara mengabaikan dokumen duplikat saat menggunakan insertMany di perpustakaan php mongodb?

  5. Buat Aplikasi Pencatat untuk Android Dengan MongoDB Stitch