Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Berkenalan dengan scikit-learn (Part 5) – Tambahan untuk Scaling dan Imputation Data

“Statistics are the triumph of the quantitative method, and the quantitative method is the victory of sterility and death.”

~ Hilaire Belloc

Setelah kita membahas mengenai scaling data pada postingan Berkenalan dengan scikit-learn (Part 3) – Scaling Data Menjadi Standard Normal dan Berkenalan dengan scikit-learn (Part 4) – Scaling Data dengan MinMaxScaler. Kali ini kita juga akan membahas mengenai Imputation. πŸ™‚

Dalam ilmu statistika, imputation adalah proses substitusi nilai kosong (missing data/null value/not available) pada dataset. Terdapat beragam metode untuk menangani missing value ini, misalnya dengan menghapus seluruh baris data yang terdapat nilai kosong, mengganti nilai kosong dengan nilai rata-rata (mean) maupun nilai yang sering muncul (mode atau modus) apabila data tersebut numerik, dsb.

Imputation adalah topik yang sangat dalam, sehingga pada kesempatan kali ini, kita berkenalan saja dulu dengan dua contoh implementasinya menggunakan scikit-learn. Selamat membaca & mencoba! πŸ™‚

 

Membuat Idempotent Scalar Objects

Baca selebihnya »

Data Scientist, Data Science, Machine Learning, Statistics, Data Science Indonesia, Data Analytics, Data Analysis, Data Analyst, Data, Astronomy, Astronomer, Science, Python, iPython, Jupyter Notebook, R, RStudio, Excel, Coding, Koding, Cara Mengolah Data, Mengolah Data, Olah Data, Programming, Pemrograman, Sains, Teknologi, Ilmu Data, Teknologi Informasi, Tech in Asia, Teknologi, Technology, Sains, Bisnis, Business, Business Analyst, Business Analysis, Social Media Mining, Movie Review, Muhammad Azizul Hakim, Aziz

Berkenalan dengan scikit-learn (Part 2) – datasets.make_: Membuat Sampel Data untuk Latihan Analisis Data

β€œYou can have data without information, but you cannot have information without data.”

~ Daniel Keys Moran

Pada postingan sebelumnya (part 1), kita telah mengenal langkah-langkah persiapan dalam menggunakan library scikit-learn, dan kita juga telah tahu cara mengimport datasets bawaan dari scikit-learn. Untuk lebih menajamkan sense kita untuk mengetahui kecocokan suatu tipe datasets dengan metode machine learning yang akan kita gunakan, di postingan kali ini, akan kita coba bersama, membuat datasets untuk toy analysis; atau untuk latihan analisis data, atau bahkan untuk prototyping, sebelum implementasi ke data yang sebenarnya. πŸ™‚

Di postingan kali ini, kita akan lihat perbedaan bentuk/tipe-tipe datasets untuk setiap algoritma machine learning yang berbeda.

Mari kita lihat, beragam jenis datasets yang dapat kita buat dengan scikit-learn, dengan script berikut ini:

#import library terlebih dahulu, jangan lupa
import sklearn.datasets as d
import numpy as np

#syntax untuk melihat, datasets macam apa sajakah yang bisa dibuat menggunakan scikit-learn
d.make_*?

Kita lihat hasilnya di console:Baca selebihnya »