Database
 sql >> Teknologi Basis Data >  >> RDS >> Database

Anatomi Peran Pengembangan Perangkat Lunak:Ilmuwan Data

Dua belas tahun yang lalu, ketika saya menulis artikel pertama untuk "Memecahkan Kode:Menghancurkan Peran Pengembangan Perangkat Lunak," saya membuat keputusan sadar dan mungkin kontroversial untuk tidak memasukkan administrator database atau arsitek database sebagai bagian dari peran. Keputusan itu dibuat karena ada beberapa organisasi yang berurusan dengan skala data yang membutuhkan peran khusus ini dalam proses pengembangan perangkat lunak. Arsitek solusi dapat menangani kebutuhan organisasi untuk merancang struktur data sebagai bagian dari peran mereka secara keseluruhan. Namun, dunia data menjadi lebih besar sejak saat itu.

Data Besar

Saat ini, kami menghadapi lebih banyak volume, kecepatan yang lebih besar, dan variasi dinamis dari sumber data yang kami proses. Kami tidak berbicara tentang database relasional khas yang telah populer selama beberapa dekade. Perluasan data memerlukan serangkaian teknik dan keterampilan yang tidak seperti pendekatan historis terhadap data yang telah kami gunakan.

Multithreading pemrosesan data kami merupakan peningkatan dari pendekatan threading tunggal untuk pemrosesan data yang mempopulerkan pemrosesan data pada 1980-an; namun, bahkan pendekatan ini, yang bergantung pada satu komputer dengan banyak utas eksekusi, rusak saat jumlah pemrosesan yang diperlukan untuk mengekstrak makna melebihi kapasitas satu mesin.

Munculnya Komputasi Berbasis Layanan

Pada tahun 1999, pengguna di rumah dapat menyumbangkan siklus komputasi cadangan mereka di komputer mereka untuk tujuan menemukan kecerdasan luar angkasa melalui proyek [email protected] yang dijalankan melalui UC Berkeley. Ini bukan penggunaan pertama komputasi terdistribusi secara luas atau komputasi grid, tetapi ini adalah proyek yang menangkap imajinasi pengguna Internet di mana-mana. Tiba-tiba, mereka memiliki kemungkinan untuk menjadi orang yang menemukan "ET." Dalam konstruksi, proyek mendistribusikan sejumlah besar data untuk diproses ke banyak komputer, yang melakukan perhitungan pada data untuk melihat apakah ada bit menarik yang mungkin bukan hanya kebisingan latar belakang. [email protected] hanyalah salah satu proyek komputasi terdistribusi yang membawa kesadaran akan jenis masalah di mana satu komputer tidak akan cukup.

IBM, Microsoft, dan lainnya kini menawarkan layanan komputasi dan pembelajaran mesin untuk membantu organisasi mengatasi data yang mereka tangkap dan memahaminya sehingga mereka tidak perlu memobilisasi pasukan sukarelawan yang berkomitmen. Platform ini bertujuan untuk menyediakan kekuatan komputasi dan pembelajaran mesin yang diperlukan untuk mengekstrak informasi yang tersembunyi dalam volume data. Alih-alih organisasi perlu membangun dan menyebarkan pusat data mereka sendiri dengan sumber daya komputasi khusus, sumber daya untuk mengubah data menjadi informasi dan makna tersedia untuk disewa.

Ini Bukan Tentang Data, Ini Tentang Wawasan

Meskipun jumlah data yang kami tangkap sangat mengejutkan, bukan data yang menarik. Yang menarik adalah apa yang dapat diberitahukan oleh data kepada Anda—jika Anda dapat menganalisisnya. Pembacaan individu tentang kinerja mesin tidak penting, tetapi kemampuan untuk memprediksi kapan mesin perlu dirawat atau kemungkinan akan gagal—itu penting.

Ilmuwan data tidak fokus pada penyimpanan data seperti arsitek data dan administrator basis data. Sebaliknya, mereka berfokus pada konversi data menjadi informasi dan, pada akhirnya, wawasan yang dapat digunakan bisnis untuk membuat keputusan yang lebih baik. Ini berarti mencari pendekatan baru untuk menganalisis data dengan cara yang mengungkapkan wawasan menarik yang dapat digunakan bisnis untuk keuntungannya.

Berdiri di Set dan Statistik

Prosesi pengembangan perangkat lunak tradisional akrab dengan pendekatan prosedural untuk memecahkan masalah. Pengembang, prospek, dan arsitek sangat terpelajar dalam metode dan manfaat konstruksi prosedural. Pendekatan prosedural seperti otomatisasi pekerja yang sangat patuh tetapi bukan pekerja asli. Komputer diberi tahu langkah-langkah (prosedur) yang harus dilakukan dalam urutan apa dan dalam kondisi apa ia harus mengulangi operasi atau membagi antara beberapa jalur. Namun, ilmuwan data bekerja tidak hanya dengan pendekatan prosedural tetapi juga dengan logika berbasis himpunan. Gaya berpikirnya berbeda, karena mencari celah dan persimpangan. Ini berfungsi berdasarkan hubungan kesetaraan dan ketidaksetaraan antara kumpulan informasi yang berbeda.

Meskipun beberapa pengembang telah menemukan logika berbasis himpunan dalam pekerjaan mereka, ilmuwan data harus merasa nyaman dan fasih dalam kemampuan mereka untuk memanipulasi kumpulan informasi.

Selain itu, tidak seperti peran lain dalam siklus hidup pengembangan perangkat lunak, ilmuwan data membutuhkan keterampilan khusus di luar bidang pengembangan perangkat lunak. Karena ilmuwan data mencari wawasan tentang hubungan antara berbagai bit data, mereka membutuhkan dasar yang kuat dalam statistik untuk dapat mencari dan menghasilkan nilai statistik seperti korelasi untuk menjawab pertanyaan yang mereka ajukan dan menemukan hubungan yang tidak tepat antara kumpulan data yang berbeda.

Di Mana Arah Posisinya?

Pertumbuhan data telah mencapai titik kritis. Baik itu analisis jaringan sosial, histori klik, atau data pembelian, organisasi melihat nilai bisnis nyata dalam data yang tersimpan di database mereka, dan ilmuwan data adalah kunci untuk membuka potensi data tersebut.

Menangkap nilai itu berarti mempekerjakan orang-orang yang memiliki keterampilan untuk menghubungkan algoritme pemrosesan ke data dan memanfaatkan kekuatan komputasi untuk menciptakan hasil tersebut.

Yang Baik, Yang Buruk, dan Yang Jelek

Ilmu data sedang meledak sekarang dengan munculnya perangkat Internet of Things yang merekam semua jenis data dari segala macam tempat. Itu berarti peluang besar—dan lebih dari sekadar beberapa tantangan. Berikut adalah beberapa dari tantangan tersebut:

  • Bagus: Ada peluang besar untuk menemukan cara baru untuk mengekstrak wawasan dari data.
  • Bagus: Sumber daya komputasi dan penyimpanan dapat dibeli dalam jumlah besar.
  • Bagus: Ilmuwan data sangat diminati dan kemungkinan akan tetap demikian untuk beberapa waktu.
  • Buruk: Saat algoritme dan pendekatan berkembang, Anda akan merasa selalu ketinggalan zaman.
  • Buruk: Semua data perlu dibersihkan, dan sebagian besar waktu akan dihabiskan untuk pekerjaan ini.
  • Jelek: Percobaan dan kesalahan akan berarti banyak “kegagalan” dan sedikit kemenangan.

Kesimpulan

Peran Ilmuwan Data memiliki kebutuhan yang berkembang pesat dan serangkaian keterampilan yang berbeda. Jika Anda menyukai kelas statistik dan suka menemukan pola yang tidak dapat dilihat orang lain, ini mungkin cocok untuk Anda.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Apa itu SQL?

  2. PEMBARUAN SQL

  3. Integrasikan Firebase dengan PHP Untuk Komunikasi Waktu Nyata

  4. Tips Manajemen Cadangan untuk TimescaleDB

  5. Merancang Database untuk Sistem Rekrutmen