Masalah yang Anda temui adalah, unicode memungkinkan banyak cara untuk membuat simbol yang sama. Modul Python unicodedata menyediakan fungsi normalize yang memungkinkan Anda mengonversi representasi unicode ke formulir
yang tetap (mis. NFC)
from unicodedata import normalize
S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')
print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))
Dalam contoh tripadvisor Anda ditampilkan dalam bentuk NFD, sedangkan notepad menggunakan NFC.