Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Bermain Twitter dengan R (Part 5) – Sentiment Analysis (Go-Jek vs Grab vs Uber)

“The more complex the world situation becomes, the more scientific and rational analysis you have to have, the less you can do with simple good will and sentiment.”

~ Reinhold Niebuhr

Akhirnya (setelah berpanjang-panjang), sampailah kita pada pembahasan yang paling ditunggu-tunggu, hands-on sentiment analysis with R! Prok prok prok.. πŸ˜€

Material yang akan kita analisis sentimennya adalah tweet konsumen maupun media, tentang aplikasi transportasi online, yaitu Go-Jek, Grab, dan Uber. Sebelum dimulai, mohon dibaca peringatan berikut ini:Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Margin Call (2011) – A Movie Review from Data Scientist Perspective

“Be first, be smarter, or cheat.”

~ John Tuld

Margin Call adalah film yang menceritakan tentang 24 jam sebelum tahap awal kebangkrutan sebuah Wall Street Investment Bank besar (terinspirasi dari kebangkrutan Lehman Brothers), yang berujung pada krisis finansial tahun 2007-2008. Untuk review film bertema serupa, baca juga The Big Short (2015) – A Movie Review from Data Scientist Perspective.

Cerita dimulai ketika terjadi pengurangan karyawan secara masifΒ  di lantai/divisi trading, pada sebuah investment bank yang bernama NBS (firma investasi berusia > 107 tahun), pada hari bisnis normal/hari kerja. Salah satu orang yang bernasib tidak beruntung kali itu adalah Eric Dale, kepala departemen manajemen risiko (risk management). Sebelum meninggalkan kantor, Dale sempat bercerita pada rekannya, Will Emerson, bahwa dia menemukan sesuatu yang penting pada proyeknya yang belum selesai, namun, Emerson mengatakan, itu sudah bukan urusannya lagi. Eric, dengan suasana hati yang kacau, meninggalkan kantornya dengan memberikan sebuah USB kepada salah satu rekan risk analystnya, Peter Sullivan, dan berpesan ‘hati-hati!’.Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Berkenalan dengan scikit-learn (Part 5) – Tambahan untuk Scaling dan Imputation Data

“Statistics are the triumph of the quantitative method, and the quantitative method is the victory of sterility and death.”

~ Hilaire Belloc

Setelah kita membahas mengenai scaling data pada postingan Berkenalan dengan scikit-learn (Part 3) – Scaling Data Menjadi Standard Normal dan Berkenalan dengan scikit-learn (Part 4) – Scaling Data dengan MinMaxScaler. Kali ini kita juga akan membahas mengenai Imputation. πŸ™‚

Dalam ilmu statistika, imputation adalah proses substitusi nilai kosong (missing data/null value/not available) pada dataset. Terdapat beragam metode untuk menangani missing value ini, misalnya dengan menghapus seluruh baris data yang terdapat nilai kosong, mengganti nilai kosong dengan nilai rata-rata (mean) maupun nilai yang sering muncul (mode atau modus) apabila data tersebut numerik, dsb.

Imputation adalah topik yang sangat dalam, sehingga pada kesempatan kali ini, kita berkenalan saja dulu dengan dua contoh implementasinya menggunakan scikit-learn. Selamat membaca & mencoba! πŸ™‚

 

Membuat Idempotent Scalar Objects

Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Bermain Twitter dengan R (Part 4) – Pengantar Algoritma Klasifikasi Sentimen

“All models are approximations. Essentially, all models are wrong, but some are useful. However, the approximate nature of the model must always be borne in mind.”

~ George E. P. Box

Pada postingan minggu lalu, kita telah membahas langkah-langkah opinion mining/sentiment analysis. Pada pembahasan kali ini, kita akan sedikit membahas mengenai beragam algoritma yang biasa digunakan untuk mengklasifikasikan sentimen.

Klasifikasi sentimen memang bukan perkara yang mudah. Meskipun begitu, terdapat beragam algoritma klasifikasi yang dapat diterapkan pada kasus opinion mining/sentiment analysis. Algoritma-algoritma tersebut beragam, mulai dari classifier probabilistik sederhana seperti Naive Bayes (probability classifier yang mengasumsikan semua feature saling independen satu sama lainnya, dan tidak menggunakan/melibatkan informasi sebelumnya (prior information), hingga classifier yang lebih advanced seperti Maximum Entropy Classifier (yang menggunakan informasi prior hingga batasan tertentu).Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Berkenalan dengan scikit-learn (Part 4) – Scaling Data dengan MinMaxScaler

β€œAs data scientists, our job is to extract signal from noise.”

~ Daniel Tunkelang

Dari postingan sebelumnya, kita telah mengenal metode scaling data menggunakan standard normal (z-score), dengan menetapkan mean 0 dan standard deviation 1. Metode tersebut bukan metode satu-satunya untuk scaling data.

Pada postingan kali ini, kita akan membahas metode lain untuk scaling data numerik, yaitu Min-Max Scaling, yang sering dikenal juga dengan normalisasi data atau normalization (karena z-score juga sering disebut normalization, maka sering terjadi ambiguitas atau tertukar-tukar :D).

Min-Max Scaling bekerja dengan scaling data/menyesuaikan data dalam rentang/range tertentu (range nilai minimum hingga nilai maksimum), dengan rentang yang biasa digunakan adalah 0 hingga 1. Berikut ini adalah uraian matematisnya:

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, AzizBaca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Bermain Twitter dengan R (Part 3) – Pengantar Sentiment Analysis

“While the individual man is an insoluble puzzle, in the aggregate he becomes a mathematical certainty. You can, for example, never foretell what any one man will be up to, but you can say with precision what an average number will be up to. Individuals vary, but percentages remain constant. So says the statistician.”

~ Arthur Conan Doyle

Sebelum kita masuk ke praktik/hands on pada sentiment analysis, ada baiknya kita pelajari bersama dahulu teori-teori di belakangnya, agar tidak terlalu black box. πŸ™‚

Secara sederhana, opinion mining atau sentiment analysis adalah metode untuk menilai opini/sentimen yang muncul dari suatu frasa atau kalimat. Seringkali dokumentasi lengkap (dataset, corpus, dll) yang tersedia mengenai sentiment analysis ini dalam bahasa Inggris, namun secara teoretik, sentiment analysis dapat dilakukan dalam bahasa apapun.

Sumber data/kalimat yang digunakan untuk sentimen analisis pun dapat bersumber dari manapun-baik itu tweet dengan total 140 karakter, Facebook post atau chat, forum post Kaskus, SMS, dll.

Berikut ini adalah contoh sederhana kalimat-kalimat beserta sentimennya:Baca selebihnya »