Seorang analis dapat menggunakan scatterplot untuk mengevaluasi hubungan antara dua variabel kontinu, seperti fat percentage (persentase lemak) dan BMI (indeks massa tubuh) pada gadis remaja. Dalam artikel ini, kita akan mempelajari bagaimana analisis scatterplot dapat membantu kami dalam menginterpretasikan hubungan antara dua variabel ini.

Struktur Scatterplot

Scatterplot terdiri atas beberapa elemen penting, yaitu:

  • X-axis yang mewakili nilai dari variabel kontinu. Sebagai aturan, ini adalah variabel independen jika salah satu variabel dapat dikategorikan sebagai such.
  • Y-axis yang mewakili nilai dari variabel kontinu. Biasanya, ini adalah variabel dependen.
  • Simbol-simbol yang dituliskan pada koordinat (X, Y) data. Opsionally, grafik dapat menggunakan simbol berwarna dan bentuk yang berbeda untuk merepresentasikan kelompok-kelompok yang sama di dalam grafik.
  • Garis fit yang dapat diletakan secara opsional untuk menentukan seberapa baik model menggambarkan data.

Analisis Scatterplot

Dalam scatterplot, kita lihat bahwa hubungan antara BMI dan fat percentage terlihat cukup kuat dan positif. Sebagai BMI meningkat, persentase lemak tubuh juga cenderung meningkat. Hubungan ini tampak sedikit melengkapi karena menjadi lebih rata-rata untuk nilai BMI yang lebih tinggi. Untuk memodelkan kelengkapan ini, analis menambahkan term squared ke model. Garis fit yang dihasilkan mengikuti kelengkapan data, menunjukkan bahwa model tersebut sesuai dengan baik.

Interpreting Scatterplots and Assessing Relationships between Variables

Scatterplots menampilkan arah, kuat, dan linearitas hubungan antara dua variabel. Hubungan positif terlihat ketika nilai-nilai cenderung meningkat bersama-sama, seperti hubungan antara tinggi dan berat badan.

Jika salah satu variabel meningkat sementara yang lain menurun, maka it's a negative correlation, seperti tampak di bawah ini.

Kuatnya Hubungan

Hubungan yang lebih kuat menghasilkan clustering data yang lebih ketat. Perlu diingat bahwa perubahan skala dapat mempengaruhi kekuatan hubungan tersebut. Koefisien korrelasi memberikan penilaian objektif kekuatan hubungan yang terpisah dari skalanya.

Relationships: Linear and Curved

Determine whether your data have a linear or curved relationship. When a relationship between two variables is curved, it affects the type of correlation you can use to assess its strength and how you can model it using regression analysis.

Adding a Fit Line

Adding a fit line highlights how well the model fits your data. When a relationship exists, you might want to model it using regression analysis.

Determine Whether the Relationship Changes between Groups

When your data have groups, you can determine whether the relationship between two variables differs between the groups. To make these comparisons, you'll need a categorical variable that defines the groups. All groups must use the same X and Y measurements.

In this scatterplot, the slope of the relationship is the same for both groups, but the output values of group B are consistently higher for any given input value.

Find Outliers and Unusual Observations with Scatterplots

Scatterplots can help you find multiple types of outliers. Some outliers have extreme values. These outliers are distanced from other data points, as shown below.

Unusual observations have values that are not necessarily extreme, but they do not fit the observed relationship. In the scatterplot below, the circled point has X and Y values that are not unusual. However, the combination of the two values clearly does not fit the overall relationship.

Trends Over Time

Typically, analysts use time series plots to display data over time. However, you can also use scatterplots for this purpose. Scatterplots are a perfect choice for time-related data when your observations occur at irregular intervals. When creating a scatterplot for time data, be sure to add a connect line between the data points!

Use Scatterplots with the Appropriate Hypothesis Tests

You can use scatterplots to display the relationships between continuous variables. However, if you plan to use your sample to infer the characteristics of an entire population, be sure to perform the necessary hypothesis tests and assess statistical significance.

Related post: Descriptive versus Inferential Statistics