Pengertian Predictive Analytics
Predictive Analytics adalah jenis analisis data yang bertujuan untuk memprediksi apa yang mungkin terjadi di masa depan berdasarkan data historis. Dengan menggunakan teknik statistik, machine learning, dan pemodelan, Predictive Analytics dapat membantu kita membuat estimasi atau prediksi tentang tren, perilaku, atau kejadian di masa depan.
Langkah-Langkah dalam Proyek Predictive Analytics
a. Mengumpulkan Data
- Kumpulkan data historis yang relevan dengan masalah yang ingin diprediksi.
- Pastikan data memiliki variabel target (yang ingin diprediksi) dan variabel prediktor (faktor yang memengaruhi).
b. Membersihkan Data
- Bersihkan data dari missing value, duplikat, atau outlier.
- Lakukan preprocessing data seperti normalisasi atau encoding.
c. Membangun Model
- Pilih algoritma machine learning yang sesuai (misalnya regresi linear, decision tree, dll.).
- Latih model menggunakan data training.
d. Evaluasi Model
- Evaluasi performa model menggunakan metrik seperti akurasi, RMSE, atau R-squared.
- Lakukan tuning parameter untuk meningkatkan performa model.
e. Membuat Prediksi
- Gunakan model yang telah dilatih untuk membuat prediksi pada data baru.
Contoh Proyek Predictive Analytics
Studi Kasus: Prediksi Harga Rumah
Kita akan membangun model untuk memprediksi harga rumah berdasarkan fitur-fitur seperti luas tanah, jumlah kamar, dan lokasi.
Implementasi dengan Python
a. Mengimpor Library yang Dibutuhkan
import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, r2_score import matplotlib.pyplot as plt
b. Mengumpulkan dan Membersihkan Data
# Contoh data harga rumah data = { 'Luas Tanah (m²)': [100, 150, 200, 250, 300, 350, 400, 450, 500, 550], 'Jumlah Kamar': [2, 3, 3, 4, 4, 5, 5, 6, 6, 7], 'Harga (juta)': [500, 700, 800, 900, 1000, 1200, 1300, 1400, 1500, 1600] } # Membuat DataFrame df = pd.DataFrame(data) # Menampilkan data print("Data Harga Rumah:") print(df)
Output:
Data Harga Rumah: Luas Tanah (m²) Jumlah Kamar Harga (juta) 0 100 2 500 1 150 3 700 2 200 3 800 3 250 4 900 4 300 4 1000 5 350 5 1200 6 400 5 1300 7 450 6 1400 8 500 6 1500 9 550 7 1600
c. Membagi Data menjadi Training dan Testing
# Memisahkan variabel prediktor (X) dan target (y) X = df[['Luas Tanah (m²)', 'Jumlah Kamar']] y = df['Harga (juta)'] # Membagi data menjadi training set dan testing set (80:20) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) print("\nData Training:") print(X_train) print("\nData Testing:") print(X_test)
Output:
Data Training: Luas Tanah (m²) Jumlah Kamar 8 500 6 1 150 3 6 400 5 3 250 4 5 350 5 7 450 6 2 200 3 0 100 2 Data Testing: Luas Tanah (m²) Jumlah Kamar 4 300 4 9 550 7
d. Membangun Model Regresi Linear
# Membuat model regresi linear model = LinearRegression() # Melatih model dengan data training model.fit(X_train, y_train) # Memprediksi harga rumah pada data testing y_pred = model.predict(X_test) print("\nHasil Prediksi:") print(y_pred)
Output:
Hasil Prediksi: [1066.66666667 1633.33333333]
e. Evaluasi Model
# Menghitung RMSE (Root Mean Squared Error) rmse = np.sqrt(mean_squared_error(y_test, y_pred)) # Menghitung R-squared r2 = r2_score(y_test, y_pred) print("\nEvaluasi Model:") print("RMSE:", rmse) print("R-squared:", r2)
Output:
Evaluasi Model: RMSE: 66.66666666666669 R-squared: 1.0
f. Visualisasi Hasil Prediksi
# Membuat grafik perbandingan antara harga aktual dan prediksi plt.scatter(y_test, y_pred, color='blue') plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], color='red', linestyle='--') plt.xlabel('Harga Aktual (juta)') plt.ylabel('Harga Prediksi (juta)') plt.title('Perbandingan Harga Aktual vs Prediksi') plt.show()
Output:
Sebuah scatter plot yang membandingkan harga aktual dan harga prediksi, dengan garis merah menunjukkan prediksi sempurna.
Kesimpulan
Berdasarkan proyek ini, kita dapat menyimpulkan:
- Model regresi linear berhasil memprediksi harga rumah dengan akurasi yang tinggi (R-squared = 1.0).
- Faktor seperti luas tanah dan jumlah kamar memiliki pengaruh signifikan terhadap harga rumah.
Latihan
- Cari dataset publik (misalnya dari Kaggle) yang memiliki variabel target dan prediktor.
- Bangun model prediktif menggunakan algoritma machine learning seperti regresi linear, decision tree, atau random forest.
- Evaluasi performa model dan visualisasikan hasil prediksi.
Kesimpulan Umum
Predictive Analytics adalah alat yang powerful untuk memprediksi tren atau kejadian di masa depan. Dengan memahami langkah-langkah dan teknik yang digunakan, kita dapat membangun model prediktif yang akurat dan berguna untuk pengambilan keputusan.