Sumber Gambar: https://en.wikipedia.org/wiki/Comparison_of_text_editors

Scraping Data Tabel HTML Wikipedia (with Python)

“If programming is magic, then web scraping is wizardry; that is, the application of magic for particularly impressive and useful-yet surprisingly effortless-feats.”

~ Ryan Mitchell

Web/Screen Scraping adalah metode untuk mengekstrak informasi (tekstual maupun non tekstual) dari website atau layar, sehingga dapat dianalisis lebih lanjut. Bisakah kita mendapatkan informasi-informasi tersebut hanya dari copy-paste manual? Tentu sangat bisa! Singkatnya, manfaat web scraping adalah memungkinkan kita untuk mengotomatisasi dan mempercepat proses pengumpulan data tersebut, apalagi jika pengumpulan data dalam jumlah banyak dan harus dilakukan lebih dari satu kali.

Salah satu pekerjaan yang sering ditemukan dalam web scraping adalah meretrieve data dari HTML table dan menyimpannya dalam format CSV (comma separated values). Di postingan kali ini, kita akan scrape data dari Wikipedia’s Comparison of Text Editors; yang merupakan contoh yang bagus, karena tabel HTMLnya cukup kompleks, dan juga terdapat dua belas tabel pada artikel ini (bayangkan jika kita harus copy-paste secara manual!).

Sudah dibuka link text editornya? Kita dapat scrape tabel pertama hanya dengan python script yg kurang dari 20 baris berikut ini:Baca selebihnya »