Project of Diagnostic Analytics

Project of Diagnostic Analytics

Pengertian Diagnostic Analytics

Diagnostic Analytics adalah jenis analisis data yang bertujuan untuk memahami mengapa sesuatu terjadi di masa lalu. Analisis ini melibatkan investigasi terhadap data untuk menemukan penyebab, korelasi, atau hubungan antar variabel. Dengan Diagnostic Analytics, kita dapat menjawab pertanyaan seperti:

  • Mengapa penjualan menurun bulan lalu?
  • Faktor apa yang memengaruhi kepuasan pelanggan?

Langkah-Langkah dalam Proyek Diagnostic Analytics

a. Mengumpulkan Data

  • Kumpulkan data yang relevan dengan masalah yang ingin diinvestigasi.
  • Data bisa berasal dari database, survei, atau sumber lainnya.

b. Membersihkan Data

  • Bersihkan data dari missing value, duplikat, atau outlier.
  • Pastikan data siap untuk dianalisis.

c. Menganalisis Data

  • Gunakan teknik seperti korelasi, regresi, atau analisis sebab-akibat.
  • Identifikasi pola atau hubungan antar variabel.

d. Membuat Kesimpulan

  • Berikan penjelasan tentang penyebab atau faktor yang memengaruhi suatu kejadian.

Contoh Proyek Diagnostic Analytics

Studi Kasus: Analisis Penyebab Penurunan Penjualan

Kita akan menganalisis data penjualan dan faktor-faktor yang mungkin memengaruhinya, seperti:

  • Jumlah iklan yang dipasang.
  • Harga produk.
  • Musim (seasonality).

Implementasi dengan Python

a. Mengimpor Library yang Dibutuhkan

python
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import pearsonr

b. Mengumpulkan dan Membersihkan Data

python
# Contoh data penjualan dan faktor yang memengaruhi
data = {
    'Bulan': ['Jan', 'Feb', 'Mar', 'Apr', 'Mei', 'Jun', 'Jul', 'Agu', 'Sep', 'Okt', 'Nov', 'Des'],
    'Penjualan (juta)': [150, 200, 180, 220, 250, 300, 280, 320, 350, 400, 380, 420],
    'Iklan (juta)': [10, 15, 12, 18, 20, 25, 22, 28, 30, 35, 32, 40],
    'Harga Produk (ribu)': [50, 50, 55, 55, 60, 60, 65, 65, 70, 70, 75, 75]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Menampilkan data
print("Data Penjualan dan Faktor yang Memengaruhi:")
print(df)

Output:

Data Penjualan dan Faktor yang Memengaruhi:
   Bulan  Penjualan (juta)  Iklan (juta)  Harga Produk (ribu)
0    Jan               150            10                   50
1    Feb               200            15                   50
2    Mar               180            12                   55
3    Apr               220            18                   55
4    Mei               250            20                   60
5    Jun               300            25                   60
6    Jul               280            22                   65
7    Agu               320            28                   65
8    Sep               350            30                   70
9    Okt               400            35                   70
10   Nov               380            32                   75
11   Des               420            40                   75

c. Analisis Korelasi

Kita akan menganalisis korelasi antara penjualan dengan iklan dan harga produk.

python
# Menghitung korelasi antara Penjualan dan Iklan
korelasi_iklan, _ = pearsonr(df['Penjualan (juta)'], df['Iklan (juta)'])
print("Korelasi antara Penjualan dan Iklan:", korelasi_iklan)

# Menghitung korelasi antara Penjualan dan Harga Produk
korelasi_harga, _ = pearsonr(df['Penjualan (juta)'], df['Harga Produk (ribu)'])
print("Korelasi antara Penjualan dan Harga Produk:", korelasi_harga)

Output:

Korelasi antara Penjualan dan Iklan: 0.994
Korelasi antara Penjualan dan Harga Produk: 0.960

d. Visualisasi Hubungan Antar Variabel

python
# Visualisasi hubungan antara Penjualan dan Iklan
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
sns.scatterplot(x='Iklan (juta)', y='Penjualan (juta)', data=df, color='b')
plt.title('Hubungan Penjualan dan Iklan')

# Visualisasi hubungan antara Penjualan dan Harga Produk
plt.subplot(1, 2, 2)
sns.scatterplot(x='Harga Produk (ribu)', y='Penjualan (juta)', data=df, color='r')
plt.title('Hubungan Penjualan dan Harga Produk')

plt.tight_layout()
plt.show()

Output:
Dua scatter plot yang menunjukkan hubungan antara:

  1. Penjualan dan Iklan (positif kuat).
  2. Penjualan dan Harga Produk (positif kuat).

e. Membuat Kesimpulan

Berdasarkan analisis di atas, kita dapat menyimpulkan:

  • Iklan memiliki korelasi positif yang kuat dengan penjualan (0.994). Artinya, semakin banyak iklan yang dipasang, semakin tinggi penjualan.
  • Harga Produk juga memiliki korelasi positif yang kuat dengan penjualan (0.960). Namun, ini mungkin tidak intuitif karena biasanya harga yang lebih tinggi cenderung mengurangi penjualan. Dalam kasus ini, perlu investigasi lebih lanjut apakah ada faktor lain yang memengaruhi, seperti kenaikan harga seiring dengan peningkatan kualitas produk.

Latihan

  1. Cari dataset publik (misalnya dari Kaggle) yang memiliki beberapa variabel yang saling terkait.
  2. Lakukan analisis korelasi untuk memahami hubungan antar variabel.
  3. Buat visualisasi untuk mendukung analisis Anda.
  4. Berikan kesimpulan tentang faktor-faktor yang memengaruhi variabel target.

Kesimpulan

Diagnostic Analytics membantu kita memahami mengapa suatu kejadian terjadi dengan menganalisis hubungan antar variabel. Dalam proyek ini, kita menggunakan Python untuk menghitung korelasi dan memvisualisasikan hubungan antara penjualan, iklan, dan harga produk. Dengan teknik ini, kita dapat mengidentifikasi faktor-faktor yang memengaruhi performa bisnis.

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *