Data Science 101

Apa itu Data

Data adalah kumpulan informasi yang diperoleh dari suatu pengamatan, dapat berupa angka, lambang atau sifat. Atau dapat didefinisikan juga sebagai kumpulan nilai dari suatu obyek. Data dapat diperoleh dari sampel atau populasi. Data Science menggunakan serangkaian metode untuk menganalisis sejumlah besar data dan mengekstrak insight didalamnya .

Kategori Data

Dalam data science berikut adalah kategori utama data :

Structured

Data terstruktur adalah data yang bergantung pada model data dan terdapat dalam catatan dengan bidang (field) yang tetap . Makanya lebih mudah untuk menyimpan file dalam database atau spreadsheet yang terdiri dari kolom dan baris.

Namun di dunia ini tidak hanya berisi data terstruktur, lebih sering data yang ada tidak terstruktur.

Unstructured

Data tidak terstruktur adalah data yang tidak mudah dimasukkan ke dalam model data karena kontennya spesifik terhadap konteks atau bervariasi. Salah satu contoh data tidak terstruktur adalah cuitan twitter.

Teks yang ditulis oleh kita, manusia, juga merupakan contoh Natural Language

Natural Language

Natural language adalah kasus spesial dari data tidak tersturktur; membutuhkan teknik khusus dan ilmu linguistik untuk bisa memprosesnya.

Machine-generated

Data yang dihasilkan mesin adalah informasi yang dibuat secara otomatis oleh komputer, proses, aplikasi, atau mesin lain tanpa campur tangan manusia. Contohnya perangkat IOT yang mengumpulkan data sensor secara terus menerus.

Graph-based

“Graf” dalam hal ini menunjuk pada teori graf . Dalam teori graf, graf adalah struktur untuk memodelkan hubungan antara objek. Graf menggambarkan kedekatan atau hubungan objek. Struktur graf menggunakan node, tepi, dan properti untuk mewakili dan menyimpan data graf. Data berbasis graf adalah cara alami untuk menggambarkan jaringan pertemanan di sosmed atau pilihan jalur dari suatu titik ke titik lain.

travelling salesman problem

Audio, image, and video

Data multimedia sudah banyak menjadi perhatian data scientist. Pemrosesan data video sudah diterapkan pada banyak industri misalnya mobil Tesla dengan autopilotnya. Kemudian salah satu task untuk data gambar adalah object detection

Streaming

Meskipun streaming data dapat menjadi hampir semua bentuk-bentuk data diatas, data streaming memiliki properti tambahan. Data mengalir (stream) ke sistem ketika suatu peristiwa (event) terjadi daripada dimuat ke penyimpanan data dalam batch. Contohnya data pasar saham.

Data Collection

Proses data collection adalah proses yang tidak dapat dihindari. Data collection berarti mengumpulkan data dari satu atau lebih sumber.

Dua metode data collection antara lain:

Teknik Data Collection

Data Collection Primer

Data Collection Sekunder

Tidak ada teknik khusus untuk data sekunder. Jadi peneliti mengandalkan data source untuk mendapatkan data antara lain: