Dapatkan bidang serupa yang paling sering diulang di database MySQL

Apa yang Anda bicarakan adalah proses pengelompokan teks. Anda mencoba menemukan potongan teks yang serupa, dan secara sewenang-wenang memilih salah satunya. Saya tidak familiar dengan database yang melakukan bentuk text mining ini.

Untuk apa yang Anda gambarkan, teknik penambangan teks yang cukup mendasar mungkin akan berhasil. Buat matriks istilah-dokumen dengan semua kata kecuali nama pengguna. Kemudian gunakan dekomposisi nilai singular untuk mendapatkan nilai singular dan vektor terbesar (ini adalah komponen utama pertama dari matriks korelasi). Kegiatan serupa harus mengelompok di sepanjang garis ini.

Jika Anda memiliki kosakata terbatas dan memiliki istilah dalam tabel, Anda dapat mengukur jarak antara dua tindakan dengan proporsi kata yang tumpang tindih. Apakah Anda memiliki daftar semua kata dalam tindakan?