Mengembangkan Plot Skatter dengan plt.scatter
Dalam pengolahan data, plot skatter (scatter plot) adalah salah satu cara yang paling populer untuk menganalisis hubungan antara dua variabel. Dalam tutorial ini, kita akan mempelajari bagaimana menggunakan fungsi plt.scatter() dari bibliothek Matplotlib Python untuk membuat dan mengustomisasi plot skatter.
Representing More Than Two Variables
Fungsi plt.scatter() tidak hanya dapat digunakan untuk mewakili dua variabel, tapi juga lebih dari itu. Dengan menggunakan beberapa parameter tambahan, kita dapat menambahkan lebih banyak variabel ke plot skatter. Berikut adalah contoh penggunaan:
| Variable | Represented by |
|---|---|
| Harga | X-axis (Sumbu X) |
| Jumlah penjualan rata-rata | Y-axis (Sumbu Y) |
| Margin laba | Marker size (Besar Tanda) |
| Jenis produk | Marker shape (Bentuk Tanda) |
| Kandungan gula | Marker color (Warna Tanda) |
Kemampuan plt.scatter() untuk merepresentasikan lebih dari dua variabel membuatnya sangat powerful dan fleksibel.
Mengexplorasi plt.scatter() Lebih Jauh
plt.scatter() menawarkan kemampuan lain untuk mengustomisasi plot skatter. Dalam bagian ini, kita akan mempelajari cara menggunakan NumPy arrays dan plot skatter untuk memfilter data. Contoh ini menggunakan random data points dan mengpisahkan mereka menjadi dua wilayah yang berbeda dalam plot skatter yang sama.
Seorang komuter yang senang dengan pengumpulan data telah mengkompilasi waktu kedatangan bus di halte bus lokal selama enam bulan. Waktu kedatangan yang terjadwal adalah 15 menit dan 45 menit setelah jam, tapi dia mencatat bahwa waktu kedatangan aktual mengikuti distribusi normal sekitar waktu tersebut:
Grafik ini menunjukkan keahlian relatif bus tiba pada setiap menit dalam satu jam. Distribusi ini dapat diwakili menggunakan NumPy dan np.linspace().
Kita telah membuat dua distribusi normal yang berpusat pada 15 dan 45 menit setelah jam, lalu menggabungkan mereka. Kita juga mengatur waktu kedatangan paling likuid menjadi nilai 1 dengan membagi oleh nilai maksimum.
Kita dapat sekarang simulasikan waktu tiba bus menggunakan distribusi ini. Untuk melakukan itu, kita akan membuat waktu tiba bus random dan probabilitas relatif menggunakan modul random bawaan. Dalam kode di atas, kita juga akan menggunakan komprehensi daftar:
Kita telah menyimulasikan 40 penjualan bus, yang dapat dilihat dalam plot skatter berikut:
Grafik Anda akan terlihat berbeda karena data Anda menghasilkan acak. Namun, tidak semua titik ini tampak seperti reality bahwa komuter telah mencatat dari data yang dikumpulkannya dan di analisis.
Kita dapat menampilkan distribusi yang diperoleh dari data dengan simulasi bus tiba:
Grafik tersebut menghasilkan output sebagai berikut:
Untuk memastikan simulasi realistis, kita perlu memastikan bahwa penjualan bus acak sesuai dengan data dan distribusi yang diperoleh dari data. Kita dapat membuat filter untuk plot skatter:
Variabel in_region dan out_region adalah array NumPy yang mengandung nilai Boolean berdasarkan apakah probabilitas relatif acak jatuh di atas atau di bawah distribusi y. Lalu, kita akan memplot dua plot skatter terpisah, satu dengan titik-titik yang jatuh dalam distribusi dan lainnya untuk titik-titik yang jatuh di luar distribusi. Titik-titik yang jatuh di atas distribusi tidak mewakili data yang sebenarnya:
Kita telah membagi titik-titik dari plot skatter asli berdasarkan apakah mereka jatuh dalam distribusi dan menggunakan warna dan tanda yang berbeda untuk mengidentifikasi dua set data.
Reviewing the Key Input Parameters
Kita telah belajar tentang parameter input utama untuk membuat plot skatter dalam bagian-bagian sebelumnya. Berikut adalah ringkasan singkat dari titik-titik penting untuk diingat:
| Parameter | Deskripsi |
|---|---|
| x dan y | Variabel-variabel ini mewakili dua variabel utama dan dapat berupa data yang mirip seperti daftar atau array NumPy. |
| Marker size | Ukuran tanda |
| Marker shape | Bentuk tanda |
| Marker color | Warna tanda |
Kita juga dapat menambahkan parameter lain untuk membuat plot skatter lebih kaya, seperti garis linier atau poligon.
Dalam tutorial ini, kita telah mempelajari bagaimana menggunakan plt.scatter() dari bibliothek Matplotlib Python untuk membuat dan mengustomisasi plot skatter. Kita juga belajar cara menambahkan lebih banyak variabel ke plot skatter dan memfilter data. Dengan menggunakan plt.scatter(), kita dapat dengan mudah menciptakan plot skatter yang indah dan informatif untuk analisis data.