Exploratory Data Analysis

Introduction

Sebuah Analogi

Bayangkan kamu dan circle mu rencana mau trip ke pantai. Tapi masih bingung mau pantai mana. Jadi kamu mulai riset sendiri.

Mungkin awalnya kamu nyari “pantai di kalimantan timur”. Kamu hitung biaya perjalanan, apa aja wahananya, bersih atau nggak, dsb. Data-data ini kamu masukin ke spreadsheet.

Temanmu juga mulai nanya-nanya orang pantai ini bagus gak, pantai itu worth ga, dan akhirnya kalian dapat pantai tujuan kalian.

Tindakan apapun yang dilakukan untuk menentukan/menginvestigasi lokasi pantai tujuan adalah apa yang disebut oleh data scientist sebagai Analisis Data Eksploratif (bahasa inggrisnya Exploratory Data Analysis atau EDA).

Apa Itu EDA

Exploratory Data Analysis (EDA), seperti namanya, adalah pendekatan untuk menganalisis/mengeksplorasi kumpulan data untuk merangkum karakteristik kumpulan data dan temuan menarik. Seringkali, karakteristik ini ditampilkan secara visual. Dalam konteks teknis data science, ini mengacu pada proses kritis dalam melakukan penyelidikan awal pada data untuk:

  • Temukan pola
  • Anomali spot
  • Uji hipotesis
  • Periksa asumsi (jika ada) dengan bantuan statistik ringkasan dan representasi grafis.

Mengapa EDA

Alasan utama kita melakukan EDA adalah:

  • Untuk melihat bentuk awal data.
  • Untuk menampilkan data sehingga fitur yang paling menarik akan terlihat. Kita kemudian dapat menggunakan fitur ini untuk tujuan machine learning.
  • Untuk mendeteksi kesalahan
  • Untuk memeriksa asumsi
  • Untuk pemilihan awal model yang sesuai
  • Untuk menentukan hubungan antara variabel input, dan
  • Untuk menilai arah dan ukuran kasar hubungan antara variabel input dan target.

Letak Proses EDA Dalam Data Science

Data scientist menghabiskan sekitar 60–70% waktu mereka dalam proyek pada fase data cleaning hingga feature engineering. Dan kira-kira 40–50% dari waktu itu dihabiskan di EDA.

Hands-On Lab

Notebook hands-on dapat diakses di github atau langsung buka di colab Buka di Colab

Sumber