Pengertian Diagnostic Analytics
Diagnostic Analytics adalah jenis analisis data yang bertujuan untuk memahami mengapa sesuatu terjadi di masa lalu. Analisis ini melibatkan investigasi terhadap data untuk menemukan penyebab, korelasi, atau hubungan antar variabel. Dengan Diagnostic Analytics, kita dapat menjawab pertanyaan seperti:
- Mengapa penjualan menurun bulan lalu?
- Faktor apa yang memengaruhi kepuasan pelanggan?
Langkah-Langkah dalam Proyek Diagnostic Analytics
a. Mengumpulkan Data
- Kumpulkan data yang relevan dengan masalah yang ingin diinvestigasi.
- Data bisa berasal dari database, survei, atau sumber lainnya.
b. Membersihkan Data
- Bersihkan data dari missing value, duplikat, atau outlier.
- Pastikan data siap untuk dianalisis.
c. Menganalisis Data
- Gunakan teknik seperti korelasi, regresi, atau analisis sebab-akibat.
- Identifikasi pola atau hubungan antar variabel.
d. Membuat Kesimpulan
- Berikan penjelasan tentang penyebab atau faktor yang memengaruhi suatu kejadian.
Contoh Proyek Diagnostic Analytics
Studi Kasus: Analisis Penyebab Penurunan Penjualan
Kita akan menganalisis data penjualan dan faktor-faktor yang mungkin memengaruhinya, seperti:
- Jumlah iklan yang dipasang.
- Harga produk.
- Musim (seasonality).
Implementasi dengan Python
a. Mengimpor Library yang Dibutuhkan
import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from scipy.stats import pearsonr
b. Mengumpulkan dan Membersihkan Data
# Contoh data penjualan dan faktor yang memengaruhi data = { 'Bulan': ['Jan', 'Feb', 'Mar', 'Apr', 'Mei', 'Jun', 'Jul', 'Agu', 'Sep', 'Okt', 'Nov', 'Des'], 'Penjualan (juta)': [150, 200, 180, 220, 250, 300, 280, 320, 350, 400, 380, 420], 'Iklan (juta)': [10, 15, 12, 18, 20, 25, 22, 28, 30, 35, 32, 40], 'Harga Produk (ribu)': [50, 50, 55, 55, 60, 60, 65, 65, 70, 70, 75, 75] } # Membuat DataFrame df = pd.DataFrame(data) # Menampilkan data print("Data Penjualan dan Faktor yang Memengaruhi:") print(df)
Output:
Data Penjualan dan Faktor yang Memengaruhi: Bulan Penjualan (juta) Iklan (juta) Harga Produk (ribu) 0 Jan 150 10 50 1 Feb 200 15 50 2 Mar 180 12 55 3 Apr 220 18 55 4 Mei 250 20 60 5 Jun 300 25 60 6 Jul 280 22 65 7 Agu 320 28 65 8 Sep 350 30 70 9 Okt 400 35 70 10 Nov 380 32 75 11 Des 420 40 75
c. Analisis Korelasi
Kita akan menganalisis korelasi antara penjualan dengan iklan dan harga produk.
# Menghitung korelasi antara Penjualan dan Iklan korelasi_iklan, _ = pearsonr(df['Penjualan (juta)'], df['Iklan (juta)']) print("Korelasi antara Penjualan dan Iklan:", korelasi_iklan) # Menghitung korelasi antara Penjualan dan Harga Produk korelasi_harga, _ = pearsonr(df['Penjualan (juta)'], df['Harga Produk (ribu)']) print("Korelasi antara Penjualan dan Harga Produk:", korelasi_harga)
Output:
Korelasi antara Penjualan dan Iklan: 0.994 Korelasi antara Penjualan dan Harga Produk: 0.960
d. Visualisasi Hubungan Antar Variabel
# Visualisasi hubungan antara Penjualan dan Iklan plt.figure(figsize=(12, 5)) plt.subplot(1, 2, 1) sns.scatterplot(x='Iklan (juta)', y='Penjualan (juta)', data=df, color='b') plt.title('Hubungan Penjualan dan Iklan') # Visualisasi hubungan antara Penjualan dan Harga Produk plt.subplot(1, 2, 2) sns.scatterplot(x='Harga Produk (ribu)', y='Penjualan (juta)', data=df, color='r') plt.title('Hubungan Penjualan dan Harga Produk') plt.tight_layout() plt.show()
Output:
Dua scatter plot yang menunjukkan hubungan antara:
- Penjualan dan Iklan (positif kuat).
- Penjualan dan Harga Produk (positif kuat).
e. Membuat Kesimpulan
Berdasarkan analisis di atas, kita dapat menyimpulkan:
- Iklan memiliki korelasi positif yang kuat dengan penjualan (0.994). Artinya, semakin banyak iklan yang dipasang, semakin tinggi penjualan.
- Harga Produk juga memiliki korelasi positif yang kuat dengan penjualan (0.960). Namun, ini mungkin tidak intuitif karena biasanya harga yang lebih tinggi cenderung mengurangi penjualan. Dalam kasus ini, perlu investigasi lebih lanjut apakah ada faktor lain yang memengaruhi, seperti kenaikan harga seiring dengan peningkatan kualitas produk.
Latihan
- Cari dataset publik (misalnya dari Kaggle) yang memiliki beberapa variabel yang saling terkait.
- Lakukan analisis korelasi untuk memahami hubungan antar variabel.
- Buat visualisasi untuk mendukung analisis Anda.
- Berikan kesimpulan tentang faktor-faktor yang memengaruhi variabel target.
Kesimpulan
Diagnostic Analytics membantu kita memahami mengapa suatu kejadian terjadi dengan menganalisis hubungan antar variabel. Dalam proyek ini, kita menggunakan Python untuk menghitung korelasi dan memvisualisasikan hubungan antara penjualan, iklan, dan harga produk. Dengan teknik ini, kita dapat mengidentifikasi faktor-faktor yang memengaruhi performa bisnis.