Pada dasarnya yang Anda butuhkan adalah mengubah "kelas format output", dan Anda memiliki beberapa cara di sana:
- Gunakan Konektor MongoDB untuk Hadoop :http://docs.mongodb.org/ecosystem/tools /hadoop/?_ga=1.111209414.370990604.1441913822
- Terapkan OutputFormat Anda sendiri :https://hadoop. apache.org/docs/r2.7.0/api/org/Apache/hadoop/mapred/OutputFormat.html (Alih-alih menggunakan FileOutputFormat).
- Jalankan kueri mongodb di dalam peredam alih-alih menulis dalam konteks MapREduce (Tidak Bagus, Anda dapat mengakhiri dengan file keluaran kosong di HDFS tergantung pada OutputFormat yang ditentukan dalam driver)
Menurut pendapat saya opsi 1 adalah opsi terbaik tetapi saya belum pernah menggunakan konektor MongoDB untuk mengatakan apakah itu cukup stabil dan fungsional. Opsi 2 mengharuskan Anda benar-benar memahami cara kerja hadoop underhood untuk menghindari akhir dengan banyak koneksi terbuka dan masalah dengan transaksi dan percobaan ulang tugas hadoop.