Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

The Big Short (2015) – A Movie Review from Data Scientist Perspective

“Do you realize what you just did? You just bet against the American economy.”

~ Ben Rickert

Halo semuanya! Bertemu lagi di sesi Intermezzo, yang kali ini masih tentang review film. Kali ini kita akan review tentang film The Big Short (2015), yang memenangkan Academy Awards/Oscar ke-88 pada tahun 2016 silam. πŸ˜€

Baca juga sesi Intermezzo sebelumnya. Selamat membaca, dan semoga bermanfaat! πŸ™‚

The Big Short adalah film yang menceritakan tentang krisis finansial Amerika tahun 2007-2008, akibat ledakan pasar rumah dan gelembung kredit rumah (US Housing Bubble). Krisis finansial 2007-2008 menjadi krisis finansial global, dan merupakan krisis finansial terburuk sejak Great Depression tahun 1930an. Film ini diangkat dari buku The Big Short: Inside the Doomsday Machine, yang ditulis oleh Michael Lewis.Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Berkenalan dengan scikit-learn (Part 3) – Scaling Data Menjadi Standard Normal

“Statistics and numbers are no good unless you have good people to analyse and then interpret their meaning and importance.”

~ Brendan Rodgers

Halo! Di postingan kali ini, kita akan membahas mengenai scaling data, yaitu salah satu metode dalam preprocessing data numerik/data angka nonkategori.Β Preprocessing data adalah teknik/step dalam data mining atau machine learning, untuk mentransformasikan data mentah menjadi data yang siap dianalisis.

Metode scaling data yang akan kita bahas di sini adalah scaling data menjadi standard normal. Standard normal sendiri merupakan salah satu metode yang paling direkomendasikan dalam teknik scaling data, sekaligus merupakan salah satu distribusi yang paling dikenal dan paling penting dalam statistika.

Pernah mendengar z-score pada statistika? Ya, kita akan mengubah/scaling data kita menjadi z-score.Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Bermain Twitter dengan R (Part 2) – Finding Trending Topics

“Social media makes it extraordinarily easy to join crusades, express solidarity and outrage, and shun traitors. Facebook was founded in 2004, and since 2006 it has allowed children as young as 13 to join. This means that the first wave of students who spent all their teen years using Facebook reached college in 2011, and graduated from college only this year.

These first true β€œsocial-media natives” may be different from members of previous generations in how they go about sharing their moral judgments and supporting one another in moral campaigns and conflicts. We find much to like about these trends; young people today are engaged with one another, with news stories, and with prosocial endeavors to a greater degree than when the dominant technology was television. But social media has also fundamentally shifted the balance of power in relationships between students and faculty; the latter increasingly fear what students might do to their reputations and careers by stirring up online mobs against them.”

~ Greg Lukianoff, Jonathan Haidt, “The Coddling of the American Mind”, The Atlantic, (September 2016).

Halo, apa kabar semuanya? :*

Sebagai lanjutan dari “Bermain Twitter dengan R, Part 1”, di postingan kali ini, kita akan membahas tips & trick yang insyaAlloh akan lebih berfaedah lagi, yaitu cara memperoleh trending topic di suatu daerah tertentu, maupun di seluruh dunia!

Sebelumnya, kita perlu mengakses twitter API terlebih dahulu, menggunakan API credentials dengan cara seperti dijabarkan pada Part 1. Jika sudah berhasil mengakses kembali aplikasi twitter kita, maka jalankanlah script berikut ini, untuk mengetahui available trend location, atau lokasi yang tersedia layanan untuk kita pantau trending topicsnya. πŸ™‚Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Berkenalan dengan scikit-learn (Part 2) – datasets.make_: Membuat Sampel Data untuk Latihan Analisis Data

β€œYou can have data without information, but you cannot have information without data.”

~ Daniel Keys Moran

Pada postingan sebelumnya (part 1), kita telah mengenal langkah-langkah persiapan dalam menggunakan library scikit-learn, dan kita juga telah tahu cara mengimport datasets bawaan dari scikit-learn. Untuk lebih menajamkan sense kita untuk mengetahui kecocokan suatu tipe datasets dengan metode machine learning yang akan kita gunakan, di postingan kali ini, akan kita coba bersama, membuat datasets untuk toy analysis; atau untuk latihan analisis data, atau bahkan untuk prototyping, sebelum implementasi ke data yang sebenarnya. πŸ™‚

Di postingan kali ini, kita akan lihat perbedaan bentuk/tipe-tipe datasets untuk setiap algoritma machine learning yang berbeda.

Mari kita lihat, beragam jenis datasets yang dapat kita buat dengan scikit-learn, dengan script berikut ini:

#import library terlebih dahulu, jangan lupa
import sklearn.datasets as d
import numpy as np

#syntax untuk melihat, datasets macam apa sajakah yang bisa dibuat menggunakan scikit-learn
d.make_*?

Kita lihat hasilnya di console:Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Bermain Twitter dengan R (Part 1) – Preparations

“That is the central tenet of twenty- first-century Western philosophy: “I tweet, therefore I am.””

~ John O’Farrell

Siapa bilang Data Scientist dan Data Analyst tidak pernah bermain social media? πŸ˜›

Sosial media adalah channel untuk komunikasi massa, seperti media promosi brand, maupun media untuk berbagi konten oleh masyarakat kekinian. Kepopuleran sosial media meningkat secara eksponensial setiap waktunya, dengan pembengkakkan pengguna online dan produksi data yang sangat masif pula. Hal-hal inilah yang menjadikan social media data menjadi ladang emas untuk menggali insights, oleh para Data Scientist maupun periset pada umumnya.

Jadi, jawabannya, iya. Kami pun bermain social media, mungkin caranya saja yang agak berbeda. πŸ˜€

Pada postingan kali ini, kita akan melakukan langkah-langkah persiapan untuk berinteraksi dengan Twitter API, menggunakan R.

Silakan teman-teman kunjungi https://apps.twitter.com/app/new terlebih dahulu untuk membuat aplikasi Twitter anda (jika sudah pernah buat, silakan diskip saja, kita hanya membutuhkan API key, dll yang akan dibahas kemudian), yang akan kita pergunakan untuk langkah-langkah berikutnya (silakan dicoba sendiri ya pembuatannya, mudah kok, dan silakan googling apabila menemui kesulitan, googling also important part of learning in these days :P).

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz
Sumber Gambar: Pengalaman Pribadi.

Yang paling kita butuhkan dari penggunaan API ini adalah:Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Movie Review, Muhammad Azizul Hakim, Aziz

Moneyball (2011) – A Movie Review from Data Scientist Perspective

Art Howe: “Do you agree with this?”
Peter Brand: “100%.”

Halo semuanya! Apa kabar? :*

Postingan kali ini adalah review film, sebagai intermezzo. Untuk ke depannya, author insyaAlloh akan menjadwalkan postingan intermezzo setiap kali selesai posting empat artikel teknis. Materinya insyaAlloh beragam.. πŸ™‚

Sedikit bercerita dulu ya, pada awalnya artikel ini adalah tugas dari Mas Satia Pradana, CEO Inspira Space, Yogyakarta. Tugas yang unik ya? Hehehe.

Karena review film/tugas ini tidak menyebarkan rahasia perusahaan, dsb, saya putuskan untuk saya share di sini, agar lebih bermanfaat untuk orang banyak. Sekian ya pengantarnya, selamat membaca! πŸ˜€

Baca selebihnya »

Berkenalan dengan scikit-learn (Part 1) – Preparations

“If one wants to make a machine mimic the behaviour of the human computer in some complex operation one has to ask him how it is done, and then translate the answer into the form of an instruction table. Constructing instruction tables is usually described as “programming”.”

~ Alan Turing

Scikit-learn adalah library untuk machine learning bagi para pengguna python. Scikit-learn merupakan free software, dan memungkinkan kita melakukan beragam pekerjaan dalam Data Science, seperti regresi (regression), klasifikasi (classification), pengelompokkan/penggugusan (clustering), data preprocessing, dimensionality reduction, dan model selection (pembandingan, validasi, dan pemilihan parameter maupun model).

Pada postingan kali ini, bersama-sama kita akan berkenalan dengan library super keren ini, dan seperti biasa, sambil praktik. Let’s get started! πŸ™‚

Baca selebihnya »

Mengintegrasikan Python dengan MySQL (Part 2) – Menyimpan Data Hasil Scraping ke Database MySQL

β€œGetting information off the Internet is like taking a drink from a firehose.”

~ Mitchell Kapor

Di postingan kali ini, kita akan menginput data dari file CSV ke database MySQL secara otomatis menggunakan python (berhubung author lupa cara otomatis menyimpan data hasil scraping langsung ke database, kali ini kita terpaksa sedikit memutar dulu, hahaha :D).

Cara yang dibabarkan di postingan kali ini, sebenarnya tidak hanya berlaku untuk kasus data hasil web scraping saja, tapi juga berlaku dalam banyak kasus yang sering dihadapi sehari-hari. Misalnya jika selama ini kita/suatu perusahaan menyimpan data dalam bentuk excel offline atau googlesheet, namun pada suatu ketika, dilakukan enablement sistem/teknologi sehingga data-data yang sangat banyak tersebut ingin disimpan pada database MySQL.

Langkah pertama (untuk berjaga-jaga), kita buat agar tabel database kita mampu menyimpan character unicode (karena secara default, MySQL tidak bisa menghandle character unicode. Kita terapkan kepada semua kolom pada tabel “tables”, dengan perintah seperti di bawah (masih ingat nama-nama kolomnya? Baca lagi di sini.): πŸ™‚Baca selebihnya »

Mengintegrasikan Python dengan MySQL (Part 1)

β€œWith data collection, β€˜the sooner the better’ is always the best answer.”

~ Marissa Mayer

Pada artikel sebelumnya, kita sudah melakukan scraping data pada HTML table, lalu menyimpan hasilnya pada format file CSV. Cukupkah itu?

Relatif, bergantung tujuan kita dalam menyimpan data. Jika kita hanya membutuhkannya untuk satu kali penggunaan, misalnya cukup untuk diedit dan dirapikan tabelnya, lalu dibuat laporan atau presentasi, ataupun penyimpanan datanya untuk satu kali analisis data, bisa jadi cukup.

Namun, apabila kita ingin menyimpan data yang tidak hanya berjumlah banyak, data juga akan terus ditambahkan secara kontinu (contoh: perekaman data customer), perlu dianalisis secara berkala, perlu manipulasi data dengan mudah dan cepat, perlu relasi antar data atau tabel, penyimpanan data perlu secara aman; tidak volatile; dan mudah diakses kapanpun oleh kita sendiri maupun rekan kerja, dan bahkan data tersebut ingin kita tampilkan realtime pada website, maka cobalah simpan data anda pada database MySQL. πŸ™‚

MySQL adalah open source relational database management system (RDBMS) terpopuler saat ini. Dengan pesaing kepopulerannya adalah dua closed source database systems, yaitu Microsoft’s SQL Server dan Oracle’s DBMS.

 

1. Membuat Database “scrapedwiki”

Oke, let’s practice! πŸ™‚

Sebelumnya, terlebih dahulu kita buat MySQL database untuk menyimpan hasil scraping dengan mengetikkan perintah di bawah ini pada MySQL Command Line Client:Baca selebihnya »