Saya ingin menulis artikel ini untuk membantu Anda dalam menggunakan Pandas untuk membuat scatter matrix. Scatter matrix adalah graph yang digunakan untuk menganalisis hubungan antara dua atau lebih variabel.

Dalam code Python di bawah ini, saya menggunakan pandas untuk membuat data frame dan kemudian menggunakan scatter_matrix dari Pandas plotting untuk membuat scatter matrix.

import numpy as np
import pandas as pd
from pandas.plotting import scatter_matrix

df = pd.DataFrame(np.random.randn(1000, 4), columns=['A','B','C','D'])
scatter_matrix(df, alpha=0.2)

Namun, jika Anda masih tidak melihat scatter matrix, maka Anda perlu mengimpor pyplot dari matplotlib.

import numpy as np
import pandas as pd
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt

df = pd.DataFrame(np.random.randn(1000, 4), columns=['A','B','C','D'])
scatter_matrix(df, alpha=0.2)
plt.show()

Pandas.plotting.scatter_matrix

Fungsi pandas.plotting.scatter_matrix digunakan untuk membuat scatter matrix dari data frame. Fungsi ini memiliki beberapa parameter yang dapat diatur, seperti:

  • frame: Data frame yang akan diplot.
  • alpha: Nilai transparansi graph (default: 0.5).
  • figsize: Ukuran graph (default: None).
  • ax: Axis object (default: None).
  • grid: Flag untuk menampilkan grid (default: False).
  • diagonal: Jenis plot untuk diagonal (default: 'hist').
  • marker: Tipe marker (default: '.').
  • density_kwds dan hist_kwds: Keyword arguments untuk kernel density estimate dan hist function.
  • range_padding: Jarak padding antara range x dan y (default: 0.05).

Contoh penggunaan fungsi ini adalah sebagai berikut:

import pandas as pd

df = pd.DataFrame(np.random.randn(1000, 4), columns=['A','B','C','D'])
pd.plotting.scatter_matrix(df, alpha=0.2)

Penggunaan Scatter Matrix

Scatter matrix dapat digunakan untuk menganalisis hubungan antara dua atau lebih variabel dalam data frame. Contoh penggunaan scatter matrix adalah sebagai berikut:

  • Membuat scatter matrix untuk memahami hubungan antara beberapa variabel.
  • Menggunakan scatter matrix untuk menemukan pola dalam data.

Contoh: Iris Dataset

Berikut adalah contoh menggunakan scatter matrix pada dataset iris:

from sklearn.datasets import load_iris
import pandas as pd

# Load iris dataset
iris_dataset = load_iris()

# Convert to DataFrame
iris_data = pd.DataFrame(iris_dataset['data'], columns=iris_dataset.feature_names)

# Make scatter matrix
import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix

scatter_matrix(iris_data, c=iris_dataset['target'], alpha=0.5, figsize=(10, 10), diagonal='kde')
plt.show()

Dalam contoh ini, kita menggunakan scatter matrix untuk menganalisis hubungan antara beberapa variabel dalam dataset iris. Kita juga menggunakan parameter c untuk menentukan warna pada scatter plot berdasarkan target (spesies bunga).