Data adalah kumpulan informasi yang diperoleh dari suatu pengamatan, dapat berupa angka, lambang atau sifat. Atau dapat didefinisikan juga sebagai kumpulan nilai dari suatu obyek. Data dapat diperoleh dari sampel atau populasi. Data Science menggunakan serangkaian metode untuk menganalisis sejumlah besar data dan mengekstrak insight didalamnya
Dalam data science berikut adalah kategori utama data
Data terstruktur adalah data yang bergantung pada model data dan terdapat dalam catatan dengan bidang (field) yang tetap
Namun di dunia ini tidak hanya berisi data terstruktur, lebih sering data yang ada tidak terstruktur.
Data tidak terstruktur adalah data yang tidak mudah dimasukkan ke dalam model data karena kontennya spesifik terhadap konteks atau bervariasi
Teks yang ditulis oleh kita, manusia, juga merupakan contoh Natural Language
Natural language adalah kasus spesial dari data tidak tersturktur; membutuhkan teknik khusus dan ilmu linguistik untuk bisa memprosesnya
Data yang dihasilkan mesin adalah informasi yang dibuat secara otomatis oleh komputer, proses, aplikasi, atau mesin lain tanpa campur tangan manusia. Contohnya perangkat IOT yang mengumpulkan data sensor secara terus menerus.
“Graf” dalam hal ini menunjuk pada teori graf . Dalam teori graf, graf adalah struktur untuk memodelkan hubungan antara objek. Graf menggambarkan kedekatan atau hubungan objek. Struktur graf menggunakan node, tepi, dan properti untuk mewakili dan menyimpan data graf
Data multimedia sudah banyak menjadi perhatian data scientist. Pemrosesan data video sudah diterapkan pada banyak industri misalnya mobil Tesla dengan autopilotnya. Kemudian salah satu task untuk data gambar adalah object detection
Meskipun streaming data dapat menjadi hampir semua bentuk-bentuk data diatas, data streaming memiliki properti tambahan. Data mengalir (stream) ke sistem ketika suatu peristiwa (event) terjadi daripada dimuat ke penyimpanan data dalam batch. Contohnya data pasar saham.
Proses data collection adalah proses yang tidak dapat dihindari. Data collection berarti mengumpulkan data dari satu atau lebih sumber.
Dua metode data collection antara lain
Tidak ada teknik khusus untuk data sekunder. Jadi peneliti mengandalkan data source untuk mendapatkan data antara lain: