Platform Statistica diperingkatkan dalam lima platform ilmu data teratas menurut laporan baru Gartner untuk tahun 2017, “Magic Quadrant for Data Science Platforms” (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- platform), sebelumnya disebut “Platform Analisis Lanjutan” pada tahun 2016. Beragam fitur dan Graphical User Interface (GUI) yang disediakan oleh Statistica menjadikannya salah satu alat ilmu data yang paling umum digunakan.
File data statistik disebut Spreadsheet , yang memiliki baris dan kolom data. Baris data disebut kasus dan header kolom untuk data disebut variabel . Masalah umum dalam persiapan data adalah bahwa anggota tim yang berbeda sedang mengembangkan atau mengumpulkan kumpulan data secara terpisah dan kumpulan data harus digabungkan sebelum spreadsheet dapat digunakan. Data bisa dalam beberapa file data. Kita akan membahas bagaimana data dalam dua file data yang berbeda dapat digabungkan menjadi satu file data dengan Statistica.
Statistica mendukung berbagai jenis mode penggabungan untuk dua file data, dan ini adalah:
- Menggabungkan: Ketika dua file data digabungkan, satu file data diambil dan ditambahkan (atau digabungkan) di sisi kanan file data lainnya.
- Kartesian: Membuat produk silang dari dua file data.
- Cocokkan Nama Kasus: Menggabungkan kasus (baris) dari satu file dengan kasus dari file lain dengan mencocokkan nama kasus.
- Variabel Pencocokan: Menggabungkan baris satu file data dengan baris file data lainnya dengan mencocokkan nama variabel.
Kita akan mulai dengan membahas penggabungan Concatenate. Tutorial ini memiliki bagian berikut:
- Mengatur Lingkungan
- Menggabungkan File Data
- Kesimpulan
Mengatur Lingkungan
Unduh dan instal Platform Statistica. File data statistik disebut Spreadsheets (disimpan dengan .sta akhiran). Kami akan membuat beberapa file data Statistica dalam tutorial ini. File data dibuat dengan File>New . Di Buat Dokumen Baru , pilih Spreadsheet , seperti yang ditunjukkan pada Gambar 1.
Gambar 1: Memilih Spreadsheet Baru untuk dibuat
Untuk menyimpan file data, pilih File>Save As , seperti yang ditunjukkan pada Gambar 2.
Gambar 2: File>Simpan Sebagai
Menggabungkan File Data
Pertama, buat dua file data yang akan digabungkan. File data yang akan digabungkan biasanya memiliki jumlah baris yang sama dan jumlah kolom yang sama atau berbeda. Karena data akan digabungkan, nama kolom biasanya akan berbeda. Tak satu pun dari ini adalah persyaratan; dua file data dapat memiliki jumlah baris yang berbeda dan kami akan membahas cara menggabungkan kumpulan file data tersebut juga. Tujuannya adalah untuk menggabungkan data dalam satu file data dengan yang lain sehingga 2 file data ditambahkan di sebelah kanan 1 file data. Sebagai contoh, buat file data (disebut wlslog1.sta ) dengan tajuk kolom (variabel ) stempel waktu , kategori , dan ketik dan data berikut (contoh data log).
4-8-2014-7:06:16,Notice,WebLogicServer 4-8-2014-7:06:17,Notice,WebLogicServer 4-8-2014-7:06:18,Notice,WebLogicServer 4-8-2014-7:06:20,Notice,WebLogicServer 4-8-2014-7:06:21,Notice,WebLogicServer 4-8-2014-7:06:22,Notice,WebLogicServer
wlslog1.sta file data ditunjukkan dalam Statistica pada Gambar 3.
Gambar 3: File Data wlslog1.sta
Buat file data lain (wlslog2.sta ) dengan header kolom servername , kode , dan pesan , dan tambahkan data berikut (juga contoh data log).
AdminServer,BEA-000365,STANDBY AdminServer,BEA-000365,RESUMING AdminServer,BEA-000365,ADMIN AdminServer,BEA-000331,STARTING AdminServer,BEA-000365,STARTED AdminServer,BEA-000360,RUNNING
wlslog2.sta file ditunjukkan pada Gambar 4. Untuk menggabungkan dua file data, wlslog1.sta dan wlslog2.sta , klik Data tab dan pilih Gabungkan , seperti yang ditunjukkan pada Gambar 4.
Gambar 4: File Data wlslog2.sta
Opsi Penggabungan dialog akan ditampilkan, seperti yang ditunjukkan pada Gambar 5. Variabel tab dipilih secara default. Pilih Mode sebagai Menggabungkan . Klik File 1 tombol untuk memilih 1 file yang akan digabungkan.
Gambar 5: Gabungkan Opsi
Pilih wlslog1.sta file di Pilih Spreadsheet dialog (lihat Gambar 6). Klik Oke . wlslog1.sta file akan ditambahkan ke File 1 bidang. Demikian pula, pilih 2 file wlslog2.sta .
Gambar 6: Memilih Spreadsheet untuk Digabung
Tidak ada konfigurasi lain yang diperlukan. Secara default, spreadsheet keluaran dibuat dan mungkin dikonfigurasi dengan Opsi tab, seperti yang ditunjukkan pada Gambar 7. Pertahankan pengaturan default untuk spreadsheet keluaran.
Gambar 7: Tab Opsi
Dua file yang akan digabungkan akan ditambahkan ke File 1 dan Berkas 2 bidang, seperti yang ditunjukkan pada Gambar 8. Pengaturan default untuk Kasus Tidak Cocok mengisi file data dengan nilai yang hilang, yang menyiratkan bahwa data kosong disimpan untuk bagian dari baris gabungan (case ) yang tidak cocok dari satu file data ke file data lainnya. Klik Oke .
Gambar 8: File Data untuk Digabung
Kedua file data digabungkan, seperti yang ditunjukkan pada Gambar 9. Spreadsheet yang dihasilkan memiliki 6 kolom dan 6 baris.
Gambar 9: Spreadsheet yang dihasilkan setelah Penggabungan
Jika satu spreadsheet memiliki lebih banyak baris daripada yang lain, kedua spreadsheet akan digabungkan dengan cara yang sama. Sebagai contoh, tambahkan baris tambahan di 1 spreadsheet (wlslog1.sta ) untuk membuat 7 baris, seperti yang ditunjukkan pada Gambar 10.
Gambar 10: Baris Ekstra di wlslog1.sta
Saat digabungkan dengan 2 spreadsheet (wlslog2.sta ), spreadsheet yang dihasilkan memiliki baris tambahan dengan data yang hilang untuk kolom dari 2 spreadsheet (lihat Gambar 11).
Gambar 11 Spreadsheet yang Digabung
Kesimpulan
Dalam tutorial ini, kami memperkenalkan penggabungan file data (juga disebut spreadsheet) di Statistica Platform untuk ilmu data. Kami membahas salah satu mode penggabungan:Penggabungan gabungan. Dalam tutorial berikutnya, kita akan membahas penggabungan dengan mencocokkan nama kasus dan dengan mencocokkan variabel.