Web Scraping

Scraping data dari IMDB

Overview

Ada banyak data yang sudah siap diolah dari berbagai sumber. Ada saatnya kita membutuhkan data yang tersedia dalam sebuah website. Untuk website tertentu biasanya mereka menyediakan API yang bisa dipakai programmer untuk meminta data mereka. Tidak jarang juga yang tidak menyediakan API tersebut, solusinya adalah dengan web scraping.

Web Scraping memungkinkan kita untuk mengambil data dari sebuah website secara terprogram. Untuk dapat melakukan web scraping sebaiknya kita juga mengetahui struktur dasar HTML. Petani kode punya bahan bacaan bagus untuk memahami struktur dasar HTML.

Project bisa dibuka di google colab Buka di Colab , atau buka di github.

Library yang dibutuhkan

Library yang dibutuhkan adalah beautifulsoup

Jika membuat project di Colab, beautifulsoup sudah terinstall secara default. Jika menggunakan jupyter notebook di komputer sendiri, beautifulsoup harus diinstall dulu.

Jika menggunakan conda, install dengan command berikut

conda install -c anaconda beautifulsoup4

Jika tidak, install dengan command berikut

pip install beautifulsoup4

Beautiful Soup

Beautiful soup adalah library yang dapat parsing struktur HTML menjadi struktur object-oriented dalam python. Berikut cheat sheet untuk membantu menggunakan beautiful soup.