Mengintegrasikan Python dengan MySQL (Part 1)

β€œWith data collection, β€˜the sooner the better’ is always the best answer.”

~ Marissa Mayer

Pada artikel sebelumnya, kita sudah melakukan scraping data pada HTML table, lalu menyimpan hasilnya pada format file CSV. Cukupkah itu?

Relatif, bergantung tujuan kita dalam menyimpan data. Jika kita hanya membutuhkannya untuk satu kali penggunaan, misalnya cukup untuk diedit dan dirapikan tabelnya, lalu dibuat laporan atau presentasi, ataupun penyimpanan datanya untuk satu kali analisis data, bisa jadi cukup.

Namun, apabila kita ingin menyimpan data yang tidak hanya berjumlah banyak, data juga akan terus ditambahkan secara kontinu (contoh: perekaman data customer), perlu dianalisis secara berkala, perlu manipulasi data dengan mudah dan cepat, perlu relasi antar data atau tabel, penyimpanan data perlu secara aman; tidak volatile; dan mudah diakses kapanpun oleh kita sendiri maupun rekan kerja, dan bahkan data tersebut ingin kita tampilkan realtime pada website, maka cobalah simpan data anda pada database MySQL. πŸ™‚

MySQL adalah open source relational database management system (RDBMS) terpopuler saat ini. Dengan pesaing kepopulerannya adalah dua closed source database systems, yaitu Microsoft’s SQL Server dan Oracle’s DBMS.

 

1. Membuat Database “scrapedwiki”

Oke, let’s practice! πŸ™‚

Sebelumnya, terlebih dahulu kita buat MySQL database untuk menyimpan hasil scraping dengan mengetikkan perintah di bawah ini pada MySQL Command Line Client:Baca selebihnya »

Sumber Gambar: https://en.wikipedia.org/wiki/Comparison_of_text_editors

Scraping Data Tabel HTML Wikipedia (with Python)

“If programming is magic, then web scraping is wizardry; that is, the application of magic for particularly impressive and useful-yet surprisingly effortless-feats.”

~ Ryan Mitchell

Web/Screen Scraping adalah metode untuk mengekstrak informasi (tekstual maupun non tekstual) dari website atau layar, sehingga dapat dianalisis lebih lanjut. Bisakah kita mendapatkan informasi-informasi tersebut hanya dari copy-paste manual? Tentu sangat bisa! Singkatnya, manfaat web scraping adalah memungkinkan kita untuk mengotomatisasi dan mempercepat proses pengumpulan data tersebut, apalagi jika pengumpulan data dalam jumlah banyak dan harus dilakukan lebih dari satu kali.

Salah satu pekerjaan yang sering ditemukan dalam web scraping adalah meretrieve data dari HTML table dan menyimpannya dalam format CSV (comma separated values). Di postingan kali ini, kita akan scrape data dari Wikipedia’s Comparison of Text Editors; yang merupakan contoh yang bagus, karena tabel HTMLnya cukup kompleks, dan juga terdapat dua belas tabel pada artikel ini (bayangkan jika kita harus copy-paste secara manual!).

Sudah dibuka link text editornya? Kita dapat scrape tabel pertama hanya dengan python script yg kurang dari 20 baris berikut ini:Baca selebihnya »