본문 바로가기
교육/SK네트웍스 Family AI 캠프

[플레이데이터 SK네트웍스 Family AI캠프 14기] 5주차 회고

by shining park 2025. 5. 10.

Class Daily Log

 

 

Data Visualization > Matplotlib Chart

  • 이산값 | 연속값 구분
    • 이산값: 분류 문제에서 레이블은 보통 이산값을 가집니다.
      • 예를 들어, 이메일이 스팸인지 아닌지를 분류하는 문제에서는 두 개의 이산값(스팸, 스팸 아님)이 사용됩니다.
      • 회원등급, 성별 등 카테고리(라벨)로 정의되는 값을 의미합니다.
    • 연속값: 회귀 문제에서는 예측해야 하는 값이 연속적 예를 들어, 내일의 온도를 예측하는 문제에서는 예측된 온도가 연속적인 값
      • 주식 가격, 환율, 이자율 등의 시계열 데이터는 모두 연속값
  • Histogram : 연속형 데이터를 일정 간격으로 나누고, 구간별 데이터 빈도수를 시각화

Seaborn > Bar Plot

  • 범주형 데이터의 수치값(개수, 평균, 합)을 막대길이로 시각화
  • 개수: countplot()
  • 수치값: barplot()
# countplot - 이미 범주가 정해진 것(1, 2, 3)들에 대해 갯수(카운트) 세는 것
# - palette 색상 팔레트명
# - ⭐hue 색상 구분 기준 컬럼명
sns.countplot(x='Pclass', data=titanic_df, palette='tab10', hue='Pclass')
plt.show()

# barplot
# - x축 이산값
# - y축 연속값에 대한 통계지표(합, 평균, 최소/최대)

# 선실등급 대비 나이 평균값 시각화
# - CI Confidence Interval 신뢰구간 95% (모집단 추정확률)
#   - ⭐CI 구간이 짧을수록 예측 성능이 좋다. (바 그래프 맨 위 가운데 있는 선) (errorbar=None 으로 없앨 수 있음)
sns.barplot(data=titanic_df, x='Pclass', y='Age',
            hue='Pclass', palette='tab10',
            estimator=np.median,  # estimator=np.mean (기본값)
            errorbar=('ci', 95) # 기본값 errorbar=('ci', 95)
            )
plt.show()

 

⭐Seaborn > 상관 Heatmap⭐

  • 컬럼간의 상관도를 Heatmap으로 시각화
  • 상관계수(-1 ~ 1) 도출 필요
    • *상관계수 (Correlation Coefficient) :* 두 변수 간에 서로 얼마나 함께 움직이는지를 나타내는 수치
# ⭐상관계수(-1 ~ 1) 도출
# - 1에 가까우면 양의 상관관계 (비례)
# - 0에 가까우면 관계가 없다.
# - -1에 가까우면 음의 상관관계 (반비례)
corr_mat = titanic_df.corr(numeric_only=True) # 수치형 데이터만 상관계수 계산이 가능 -> 상관계수 행렬 매트릭스 반환
corr_mat

# 히트맵 시각화
sns.heatmap(corr_mat, annot=True, fmt='.2f')
plt.show()

 

 

Keep

  • 복습 및 실습과제를 빼먹지 않은 것
  • 자격증 및 공부 스터디를 꾸준히 진행한 것

Problem

  • 점심 이후 오후 강의시간에 집중을 잘 못하는 것
  • 평일 운동을 자주 하지 못한 것

Try

  • 지하철 이용 시간에 독서나 Daily Log를 통한 복습을 진행할 것
  • 팀프로젝트와 스터디로 인해 복습을 미루지 말 것
  • 운동을 꾸준히 해서 체력을 늘릴 것