Dalam analisis data, memiliki alat yang efektif dan mudah dipahami untuk menampilkan informasi tentang distribusi data adalah sangat penting. Salah satu alat tersebut adalah Box Plot, yang dikembangkan oleh John Tukey sekitar tahun 1970 dan menjadi terkenal setelah publikasi buku "Exploratory Data Analysis" pada tahun 1977.

Box Plot masih digunakan secara luas dalam akademisi maupun di berbagai industri hingga hari ini, lebih dari 40 tahun setelah diperkenalkan. Mereka telah menunjukkan menjadi alat yang bermanfaat untuk menampilkan tendensi sentral dan variabilitas data, bentuk distribusi (simetri atau skewness), serta kemungkinan adanya nilai outliers.

Box Plot terdiri atas lima komponen utama yang bekerja sama untuk memberikan informasi tentang distribusi data:

  1. Median
  2. Hinges: dua bagian yang berada di quartil bawah dan atas, masing-masing ditandai dengan Q1 dan Q3.
  3. Fences: dua batas yang terletak di sekitar nilai-nilai data yang paling jauh dari median, yaitu:
  • Lower Extreme = Q1 - 1.5(IQR)
  • Upper Extreme = Q3 + 1.5(IQR), where IQR denotes the inter quartile range (IQR = Q3 - Q1).
  1. Whiskers: dua garis yang menghubungkan hinges dengan fences.
  2. Potential Outliers: semua nilai individu yang lebih jauh dari lower dan upper extremes, ditandai dengan titik.

Contoh Box Plot dapat dilihat dalam gambar di bawah ini:

Komponen-komponen Box Plot sebagaimana diproposisikan oleh John Tukey pada tahun 1977.

Dalam contoh ini kita dapat melihat bahwa 50% dari nilai data berada di wilayah yang ditentukan oleh box (yaitu setengah dari data adalah dalam rentang interval sekitar nol). Selain itu, kenyataan bahwa upper whisker tidak mencapai upper extreme menunjukkan bahwa nilai sample terbesar dalam fences (fence atas) lebih kecil daripada upper extreme. Akhirnya, kita dapat melihat adanya beberapa potensi outliers di sisi-sisi distribusi.

Variasi

Box Plots telah mengalami perkembangan dan banyak variasi yang dikemukakan sejak 40 tahun terakhir. Contohnya, Notched Box Plots diperkenalkan oleh McGill R, Tukey, dan Larsen dalam paper "Variations of Box Plots". Variasi ini menunjukkan jumlah observasi dalam batch menggunakan lebar box, sementara notch memberikan indikasi perbedaan statistik antar dua batch.

Violin Plots diperkenalkan oleh Jerry L. Hintze dan Ray D. Nelson dalam paper "Violin Plots: A Box Plot-Density Trace Synergism" pada tahun 1998. Violin Plot terdiri atas trace densitas yang dikombinasikan dengan quartil dari box plot. Perlu diingat bahwa outliers individu tidak digambarkan dalam Violin Plot.

Akhirnya, Bean Plots diperkenalkan oleh Peter Kampstra dalam paper "Beanplot: A Boxplot Alternative for Visual Comparison of Distributions" pada tahun 2008. Bean Plot memberikan display samping-samping yang mengandung kurva densitas, observasi asli yang menghasilkan kurva densitas, serta rata-rata masing-masing grup.

Beberapa variasi Box Plots yang dikemukakan sejak dahulu.

Menyandingkan Alat

Seperti kita sampaikan, Box Plots adalah alat yang sangat baik dalam analisis data. Namun, tidaklah tepat jika kita hanya mempercayai satu alat visualisasi untuk menganalisis data. Sebaliknya, kita harus menggabungkan dan membandingkan berbagai alat dan teknik untuk mendapatkan pengetahuan yang lebih baik tentang dataset.

Awalnya, kita dapat menggabungkan Box Plot dengan Histogram dan Rug (1d scatter plot). Contoh-contoh di bawah ini menunjukkan bagaimana gabungan alat tersebut dapat membantu menganalisis data.

Contoh 1 (Data Unimodal). Dalam contoh ini, kita menggunakan sample dari distribusi normal dengan mean nol dan variance satu. Sebagai dapat dilihat, Box Plot melakukan pekerjaan yang cukup baik untuk menampilkan distribusi dan memberikan informasi yang mirip dengan Histogram.

Contoh 2 (Data Skewness). Dalam contoh ini, kita menggunakan sample dari distribusi yang tidak simetri. Seperti dapat dilihat, Box Plot masih dapat menampilkan distribusi dengan cara lain, yaitu dengan memperlihatkan skewness data.

Dengan demikian, Box Plots adalah alat analisis data yang sangat bermanfaat dan mudah dipahami. Dalam analisis data, memiliki alat yang efektif dan mudah dipahami dapat membantu kita membuat keputusan yang lebih baik dan meningkatkan kemampuan analitis.