Using Libraries Dplyr for Data Cleanup

Using Libraries Dplyr for Data Cleanup

Pendahuluan dplyr adalah salah satu library paling populer di R untuk manipulasi data, dan kini konsepnya dapat digunakan di Python melalui : Pandas (dengan gaya pipe %>% menggunakan df.pipe() atau library dfply) Siuba (library Python yang mengadopsi sintaks dplyr)…
Using Libraries Pandas for Data Cleanup

Using Libraries Pandas for Data Cleanup

Pandas adalah library Python yang sangat powerful untuk manipulasi dan analisis data. Dalam proses data cleanup, Pandas menyediakan berbagai fungsi untuk : Menangani missing values. Menghapus duplikat. Mengubah tipe data. Filtering data.…
Data Cleanup : Data Transformation

Data Cleanup : Data Transformation

Data Transformation adalah proses mengubah data ke dalam bentuk yang lebih sesuai untuk analisis atau pemodelan. Tujuannya meliputi : Meningkatkan kualitas data. Memenuhi asumsi model statistik/machine learning. Membuat data lebih…
Data Cleanup : Finding Outliers

Data Cleanup : Finding Outliers

Konsep Dasar Outlier Outlier adalah observasi yang secara signifikan berbeda dari data lainnya dalam dataset. Outlier dapat : Mewakili variasi alami dalam data Menunjukkan kesalahan pengukuran atau input Mengindikasikan kejadian…
Data Cleanup : Removing Duplicates

Data Cleanup : Removing Duplicates

Konsep Dasar Duplikasi Data 1 Definisi dan Jenis Duplikat Duplikat data terjadi ketika terdapat record yang identik atau hampir sama dalam dataset. Terdapat dua jenis utama: Exact Duplicates: Record yang…