Saya telah melakukan banyak pekerjaan pada penguraian semacam ini. Karena ada kesalahan, Anda tidak akan mendapatkan akurasi 100%, tetapi ada beberapa hal yang dapat Anda lakukan untuk mendapatkan hasil maksimal, dan kemudian lakukan tes BS visual. Inilah cara umum untuk melakukannya. Ini bukan kode, karena menulisnya cukup akademis, tidak ada yang aneh, hanya banyak penanganan string.
(Sekarang Anda telah memposting beberapa contoh data, saya telah membuat beberapa perubahan kecil)
- Bekerja mundur. Mulai dari kode pos, yang akan berada di dekat bagian akhir, dan dalam salah satu dari dua format yang diketahui:XXXXX atau XXXXX-XXXX. Jika ini tidak muncul, Anda dapat menganggap Anda berada di bagian kota, negara bagian, di bawah.
- Hal berikutnya, sebelum zip, adalah status, dan formatnya bisa dua huruf, atau sebagai kata. Anda juga tahu apa yang akan terjadi -- hanya ada 50 di antaranya. Selain itu, Anda dapat membunyikan kata-kata untuk membantu mengkompensasi kesalahan ejaan.
- sebelumnya adalah kota, dan mungkin pada garis yang sama dengan negara. Anda dapat menggunakan basis data kode pos untuk memeriksa kota dan negara bagian berdasarkan zip, atau setidaknya menggunakannya sebagai pendeteksi BS.
- Alamat jalan biasanya terdiri dari satu atau dua baris. Baris kedua umumnya akan menjadi nomor suite jika ada, tetapi bisa juga berupa kotak PO.
- Hampir mustahil untuk mendeteksi nama pada baris pertama atau kedua, meskipun jika tidak diawali dengan angka (atau jika diawali dengan "attn:" atau "attention to:" itu bisa memberi Anda petunjuk apakah itu nama atau baris alamat.
Saya harap ini bisa membantu.