안녕하세요. 데이콘에서 활동하는 '동화책'입니다. 📚🤓캐글 노트북을 살펴보던 중 함께 공유하면 좋은 내용을 찾아서 가졌습니다. 바로 'iris 데이터셋을 활용한 시각화 (feat. seaborn, pandas plot)'입니다.

저는 처음에 시각화를 위해 Matplotlib을 사용하였는데요... 플롯 틀도 만들고~ 축 이름도 설정해주고~ 하는 과정이 번거롭더라고요 😅. 그래서 간단하게! 이쁘게! 시각화를 할 때 seaborn과 pandas를 주로 사용하고 있습니다.

시각화는 함수도 정~~말 많이 있고 변수도 다양한 इसल故 필요한 때 공식 문서나 블로그 등의 것을참고해가면서 익혀나가는 것이 좋은 것 같아요~ 저도 아직 부족하지만 배운 내용을 여러분들과 공유하면서 실력을 쑥쑥 키워나가겠습니다! 궁금한 사항이 있으시면 댓글로 달아주세요. 피드백은 언제나 환영입니다. 🤗

데이터 설명

Iris 데이터셋은 4차원 특성에 대한 150개의 샘플을 포함하는well-known multivariate dataset입니다. 이 데이터는 세 가지 종류의 아이리스 꽃(iris setosa, iris virginica, iris versicolor)에 대한 특성을 보여줍니다.

Seaborn과 Matplotlib의 비교

Seaborn은 matplotlib을 기반으로 하되, 더 쉽고 강력한 시각화 도구를 제공합니다. Seaborn은 기본적으로 seaborn.set_style("whitegrid")를 사용하여 WHITEGRID 스타일을 정의할 수 있습니다.

데이터 로딩 및 초기 확인

Python 3에서 다음과 같은 코드를 작성하여 Iris 데이터셋을 로드할 수 있습니다.

import pandas as pd
import matplotlib.pyplot as plt

data = pd.read_csv("Iris.csv")
print(data.head(10))

위 코드에서는 "Iris.csv" 파일에서 데이터를 읽어와 10개의 샘플을 출력합니다.

시각화

다음은 Seaborn을 사용하여 Iris 데이터셋을 시각화하는 예제입니다.

import seaborn as sns

iris = sns.load_dataset('iris')

sns.set_style("whitegrid")

sns.FacetGrid(iris, hue="species",
 height=6).map(plt.scatter,
 'sepal_length',
 'petal_length').add_legend()

위 코드에서는 Seaborn을 사용하여 FacetGrid를 생성하고, x축과 y축의 변수를 정의합니다. 이 때에는 "species" 열에 따라 세 가지 종류의 아이리스 꽃으로 구분됩니다.

결과

시각화된 결과는 다음과 같습니다.

Iris Dataset Visualization

위그림은 세 가지 종류의 아이리스 꽃에 대한 2차원 프로젝션을 보여주는 것입니다. 각 점에는 Sepal Length와 Petal Length라는 두 개의 특성이 포함되어 있습니다.

이러한 시각화는 데이터를 더 잘 이해하고, 특성之间의 관계를 찾는 데 도움이 됩니다. 저는 이 방식으로 실제 AI 모델링에도 적용할 수 있습니다! 🤖

결론

시각화는 데이터 분석의 중요한 부분입니다. Seaborn과 pandas를 사용하여 Iris 데이터셋을 시각화한 예제를 보여주는 것은 좋은 방법입니다. 이제는 실제 AI 모델링에 이를 적용하여 실제 세계에 적용할 수 있습니다! 💪