Masalah yang Anda temui adalah, unicode memungkinkan banyak cara untuk membuat simbol yang sama. Modul Python unicodedata
menyediakan fungsi normalize
yang memungkinkan Anda mengonversi representasi unicode ke formulir
yang tetap (mis. NFC)
from unicodedata import normalize
S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')
print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))
Dalam contoh tripadvisor Anda ditampilkan dalam bentuk NFD, sedangkan notepad menggunakan NFC.