Membaca Prospektif Bisnis Big Data

oleh

Oleh : Rifaun Naim

(Data is a New Currency) kalimat tersebut akhir-akhir ini santer diperbincangkan dikaitkan dengan gerakan transformasi digital, mengisyaratkan betapa bernilainya data bagi sebuah langkah strategis bisnis. Namun jika dirunut, urgensi pemanfaatan data sebenarnya tak lain muncul dari komoditas data itu sendiri sebagai objek digital. Saat ini data bisa diperoleh dari mana saja, dari perangkat komputasi yang sehari-hari digunakan.

Tren tersebut menghadirkan dua pekerjaan baru di bidang Teknologi yakni Data Engineer dan Data Scientist. Data Engineer memiliki tugas utama untuk menemukan cara dalam menangkap, mengumpulkan dan memadatkan sebuah data dari sumbernya domain pekerjaannya termasuk membangun dan mengelola sebuah sistem yang menjadi produsen data.

banner

Sedangkan Data Scientist memiliki misi mengolah data tersebut menghasilkan pengetahuan yang bernilai dan dapat diaplikasikan. Sehingga dapat disimpulkan, bahwa Data Science merupakan sebuah proses memproduksi pengetahuan data (Data Insight).

Untuk menjadi Data Scientist diperlukan pemahaman tentang beberapa hal, yakni kemampuan analisis menggunakan konsep matematika dan statistik, kemampuan pemrograman untuk pengolahan data, dan pemahaman pada subjek spesifik pada bidang bisnis yang digeluti.

Pemahaman tentang metode statistik digunakan sebagian besar untuk memahami tentang makna data, termasuk untuk melakukan validasi hipotesis dari pengetahuan yang dihasilkan data, menyimulasikan skenario, hingga membantu penyusunan sebuah prakiraan.

Wajib hukumnya untuk memahami ilmu statistik dasar. Dalam penerapannya, konsep matematika dan statistika berjalan beriringan, mengharuskan pengelolanya jeli menyisipkan formula sesuai dengan pemrosesan data yang dibutuhkan.

Kemampuan coding setidaknya tingkat dasar harus dimiliki code yang dituliskan nantinya akan digunakan untuk menginstruksikan komputer dalam memanipulasi, menganalisis dan memvisualisasikan data yang telah dirapikan.

Sumber data sangat beragam, implikasinya data yang dihimpun juga bervariasi. Dalam standar data digital, setidaknya tipikal data tersebut terbagi ke dalam tiga jenis :

  1. Data terstruktur (structured data) : yakni data yang sudah dikelola, diproses dan dimanipulasi dalam RDBMS (Relational Database Management System). Misalnya data tabel hasil masukan formulir pendaftaran di sebuah layanan web.
  2. Data tidak terstruktur (unscructured data) : yakni berupa data mentah yang baru didapat dari beragam jenis aktivitas dan belum disesuaikan ke dalam format basis data. Misalnya berkas video yang didapat dari kamera.
  3. Data semi terstruktur (semistructured data) : yakni berupa data yang memiliki struktur, misalnya berupa tag, akan tetapi belum sepenuhnya terstruktur dalam sistem basis data. Misalnya data yang memiliki keseragaman tag, namun memiliki isian yang berbeda didasarkan pada karakteristik pengisi.

Data Engineer bertugas untuk menyelaraskan ketiga tipe data tersebut, termasuk di dalamnya mengatur skema data. Mengapa merapikan data tersebut menjadi tugas penting? Ketika berbicara data dengan ukuran yang sangat besar, efisiensi perlu dilakukan dalam arsitektur data, tujuannya untuk memberikan kemudahan sekaligus kecepatan dalam pengelolaan serta akses data. Bagi Data Scientist, salah satu validitas data juga ditentukan dari seberapa relevan sumber data yang dimiliki, baik sebagai pelengkap ataupun pembanding.

Coding dilakukan jika sumber data telah menjadi ekstensi berkas yang siap diolah. Terdapat empat format umum yang dapat diterima hampir semua sistem analisis data, yaitu Comma-separated Values (CSV), Scripts (*.py, *.ipynb, *.r dll), berkas aplikasi tabel (*.xlsx, *.qgs dll), dan berkas pemrograman web (*.html, *.svg dll).

banner