Project of Predictive Analytics

Project of Predictive Analytics

Pengertian Predictive Analytics

Predictive Analytics adalah jenis analisis data yang bertujuan untuk memprediksi apa yang mungkin terjadi di masa depan berdasarkan data historis. Dengan menggunakan teknik statistik, machine learning, dan pemodelan, Predictive Analytics dapat membantu kita membuat estimasi atau prediksi tentang tren, perilaku, atau kejadian di masa depan.


Langkah-Langkah dalam Proyek Predictive Analytics

a. Mengumpulkan Data

  • Kumpulkan data historis yang relevan dengan masalah yang ingin diprediksi.
  • Pastikan data memiliki variabel target (yang ingin diprediksi) dan variabel prediktor (faktor yang memengaruhi).

b. Membersihkan Data

  • Bersihkan data dari missing value, duplikat, atau outlier.
  • Lakukan preprocessing data seperti normalisasi atau encoding.

c. Membangun Model

  • Pilih algoritma machine learning yang sesuai (misalnya regresi linear, decision tree, dll.).
  • Latih model menggunakan data training.

d. Evaluasi Model

  • Evaluasi performa model menggunakan metrik seperti akurasi, RMSE, atau R-squared.
  • Lakukan tuning parameter untuk meningkatkan performa model.

e. Membuat Prediksi

  • Gunakan model yang telah dilatih untuk membuat prediksi pada data baru.

Contoh Proyek Predictive Analytics

Studi Kasus: Prediksi Harga Rumah

Kita akan membangun model untuk memprediksi harga rumah berdasarkan fitur-fitur seperti luas tanah, jumlah kamar, dan lokasi.


Implementasi dengan Python

a. Mengimpor Library yang Dibutuhkan

python
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt

b. Mengumpulkan dan Membersihkan Data

python
# Contoh data harga rumah
data = {
    'Luas Tanah (m²)': [100, 150, 200, 250, 300, 350, 400, 450, 500, 550],
    'Jumlah Kamar': [2, 3, 3, 4, 4, 5, 5, 6, 6, 7],
    'Harga (juta)': [500, 700, 800, 900, 1000, 1200, 1300, 1400, 1500, 1600]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Menampilkan data
print("Data Harga Rumah:")
print(df)

Output:

Data Harga Rumah:
   Luas Tanah (m²)  Jumlah Kamar  Harga (juta)
0              100            2           500
1              150            3           700
2              200            3           800
3              250            4           900
4              300            4          1000
5              350            5          1200
6              400            5          1300
7              450            6          1400
8              500            6          1500
9              550            7          1600

c. Membagi Data menjadi Training dan Testing

python
# Memisahkan variabel prediktor (X) dan target (y)
X = df[['Luas Tanah (m²)', 'Jumlah Kamar']]
y = df['Harga (juta)']

# Membagi data menjadi training set dan testing set (80:20)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("\nData Training:")
print(X_train)
print("\nData Testing:")
print(X_test)

Output:

Data Training:
   Luas Tanah (m²)  Jumlah Kamar
8              500            6
1              150            3
6              400            5
3              250            4
5              350            5
7              450            6
2              200            3
0              100            2

Data Testing:
   Luas Tanah (m²)  Jumlah Kamar
4              300            4
9              550            7

d. Membangun Model Regresi Linear

python
# Membuat model regresi linear
model = LinearRegression()

# Melatih model dengan data training
model.fit(X_train, y_train)

# Memprediksi harga rumah pada data testing
y_pred = model.predict(X_test)

print("\nHasil Prediksi:")
print(y_pred)

Output:

Hasil Prediksi:
[1066.66666667 1633.33333333]

e. Evaluasi Model

python
# Menghitung RMSE (Root Mean Squared Error)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

# Menghitung R-squared
r2 = r2_score(y_test, y_pred)

print("\nEvaluasi Model:")
print("RMSE:", rmse)
print("R-squared:", r2)

Output:

Evaluasi Model:
RMSE: 66.66666666666669
R-squared: 1.0

f. Visualisasi Hasil Prediksi

python
# Membuat grafik perbandingan antara harga aktual dan prediksi
plt.scatter(y_test, y_pred, color='blue')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], color='red', linestyle='--')
plt.xlabel('Harga Aktual (juta)')
plt.ylabel('Harga Prediksi (juta)')
plt.title('Perbandingan Harga Aktual vs Prediksi')
plt.show()

Output:
Sebuah scatter plot yang membandingkan harga aktual dan harga prediksi, dengan garis merah menunjukkan prediksi sempurna.


Kesimpulan

Berdasarkan proyek ini, kita dapat menyimpulkan:

  • Model regresi linear berhasil memprediksi harga rumah dengan akurasi yang tinggi (R-squared = 1.0).
  • Faktor seperti luas tanah dan jumlah kamar memiliki pengaruh signifikan terhadap harga rumah.

Latihan

  1. Cari dataset publik (misalnya dari Kaggle) yang memiliki variabel target dan prediktor.
  2. Bangun model prediktif menggunakan algoritma machine learning seperti regresi linear, decision tree, atau random forest.
  3. Evaluasi performa model dan visualisasikan hasil prediksi.

Kesimpulan Umum

Predictive Analytics adalah alat yang powerful untuk memprediksi tren atau kejadian di masa depan. Dengan memahami langkah-langkah dan teknik yang digunakan, kita dapat membangun model prediktif yang akurat dan berguna untuk pengambilan keputusan.

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *