MySQL Workbench
 sql >> Teknologi Basis Data >  >> Database Tools >> MySQL Workbench

Mendapat kesalahan ukuran tumpukan Java saat mencoba mengelompokkan 15980 dokumen melalui carrot2workbench

Kecurigaan Anda benar, ini adalah masalah ukuran tumpukan, atau lebih tepatnya, batasan skalabilitas. Langsung dari FAQ carrot2:http://project.carrot2.org/faq.html#scalability

Bagaimana skala pengelompokan Carrot2 sehubungan dengan jumlah dan panjang dokumen? Karakteristik terpenting dari algoritme Carrot2 yang perlu diingat adalah bahwa mereka melakukan pengelompokan dalam memori. Untuk alasan ini, sebagai aturan praktis, Carrot2 harus berhasil menangani hingga seribu dokumen, masing-masing beberapa paragraf. Untuk algoritme yang dirancang untuk memproses jutaan dokumen, Anda mungkin ingin melihat proyek Mahout.

Pengembang juga memposting tentang ini di sini:https://stackoverflow.com/a/28991477

Meskipun pengembang merekomendasikan Mahout, dan ini mungkin cara yang harus dilakukan karena Anda tidak akan terikat oleh batasan pengelompokan dalam memori seperti pada carrot2, namun mungkin ada kemungkinan lain:

  1. Jika Anda benar-benar menyukai carrot2 tetapi tidak perlu k-means, Anda dapat melihat Lingo3G komersial, berdasarkan bidang "Waktu pengelompokan 100000 snippet [s] " dan komentar (***) di http://carrotsearch.com/lingo3g-comparison itu harus dapat menangani lebih banyak dokumen. Periksa juga entri FAQ mereka tentang "Berapa jumlah maksimum dokumen yang dapat dikelompokkan Lingo3G?" di http://carrotsearch.com/lingo3g-faq

  2. Cobalah untuk meminimalkan ukuran label tempat k-means melakukan pengelompokan. Alih-alih mengelompokkan semua konten dokumen, cobalah mengelompokkan abstrak/ringkasan atau mengekstrak kata kunci penting dan mengelompokkannya.



  1. DBeaver
  2.   
  3. phpMyAdmin
  4.   
  5. Navicat
  6.   
  7. SSMS
  8.   
  9. MySQL Workbench
  10.   
  11. SQLyog
  1. Ruang kerja Eclipse mogok saat startup

  2. Server MySQL Workbench tidak kompatibel/tidak standar

  3. Bagaimana cara menyalin tabel antara dua model di meja kerja Mysql?

  4. MySQL REPEATABLE-READ Level transaksi Workbench tidak disetel

  5. Mysql Workbench Mac OS tidak memiliki alat manajemen dan Impor/Ekspor Data