EDA(탐색적 데이터 분석) 체크리스트
탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 데이터 사이언스 프로젝트의 핵심 단계입니다. 이 과정에서 우리는 데이터의 구조와 특성을 파악하고, 이상값과 결측치 등을 점검하며, 향후 분석이나 모델링 방향을 설정합니다. 이 글에서는 실무와 프로젝트 모두에 활용할 수 있는 EDA 체크리스트를 체계적으로 정리해 보았습니다.
1. 데이터 개요 확인
- 행과 열 수 확인: 데이터 크기 확인 (
df.shape
) - 변수 타입 확인: 수치형 / 범주형 / 날짜형 등 구분 (
df.dtypes
) - 간단한 통계 요약:
df.describe()
로 수치형 변수의 범위와 분포 확인 - 샘플 확인:
df.head()
,df.sample()
등으로 데이터 감 잡기
2. 결측치(Missing Values) 탐색
- 전체 변수별 결측 비율 확인:
df.isnull().sum()
,df.isnull().mean()
- 결측치 패턴 분석: 특정 변수들 간의 결측 발생 여부 연관성 탐색
- 처리 전략 결정: 삭제, 평균/중앙값 대체, 예측 기반 보간 등 방법 결정
3. 이상값(Outliers) 탐색
- 박스플롯(Boxplot) 시각화: 변수별 이상값 시각적으로 파악
- IQR 또는 Z-score로 탐지: 수치 기반의 이상값 탐색
- 이상값 처리 여부 결정: 도메인 지식 기반 판단 필요
4. 범주형 변수 분석
- 유니크한 값 개수 확인:
df['col'].nunique()
- 각 카테고리별 분포 시각화: bar chart, countplot 등
- 희귀 카테고리 병합 필요 여부 판단
5. 수치형 변수 분석
- 기초 통계량 확인: 평균, 중앙값, 분산, 왜도(skewness), 첨도(kurtosis)
- 히스토그램, KDE plot 등으로 분포 형태 파악
- 로그 변환 또는 스케일링 필요 여부 판단
6. 변수 간 관계 분석
- 수치형 간 상관관계:
df.corr()
+ heatmap 시각화 - 범주형 vs 수치형: boxplot, violin plot 등으로 그룹 간 차이 확인
- 범주형 간 교차분석: 피벗테이블, groupby, 카이제곱 검정 등
7. 타겟 변수 중심의 EDA
- 타겟 분포 확인: 분류 문제라면 클래스 불균형 여부 확인
- 타겟 변수와의 관계 시각화: 주요 변수와 타겟 간의 패턴 탐색
- 타겟 별 그룹통계 비교: 평균 차이, 비율 차이 등
8. 시각화를 통한 통찰 확보
- Pairplot / Scatter matrix로 변수 간 전반적인 관계 탐색
- 히트맵, 박스플롯, countplot 등 조합하여 통찰 도출
- 인사이트 기록: 발견한 특징, 가설을 정리해두기
9. 피처 엔지니어링 아이디어 도출
- 새로운 파생 변수 생성: 범주 묶기, 수치형 변수 간 조합, 날짜 처리 등
- 이상/결측 패턴을 변수화: “결측여부”를 별도 변수로 만들기도 함
- 도메인 지식 반영: 비즈니스 맥락에서 의미 있는 파생 변수 제안
10. 분석 로그 및 결과 기록
- EDA 노트 정리: 주피터 노트북/Notion/Markdown 등으로 문서화
- 가설 정리 및 다음 단계(모델링, 리포트 작성)로 연결
- 협업을 위한 설명 문구 덧붙이기: "왜 이 결측을 제거했는지" 등 이유 기록
마무리하며
EDA는 단순한 데이터 요약을 넘어서, 데이터가 말하고자 하는 내용을 발견하고 향후 분석 방향을 결정하는 중요한 과정입니다. 체크리스트를 바탕으로 체계적으로 접근하면, 분석의 질은 물론 결과물의 신뢰도도 크게 향상될 것입니다. 다음 단계에서는 이러한 통찰을 바탕으로 모델링 혹은 리포트 작성으로 이어가면 좋습니다.
'금융&IT' 카테고리의 다른 글
데이터 기반 인사이트 도출 사례 (0) | 2025.04.28 |
---|---|
데이터사이언티스트가 하는 일과 필요한 역량 (0) | 2025.04.28 |
RWA(Real World Assets) 토큰화 – 부동산, 미술품, 채권 등의 디지털 전환 트렌드 (0) | 2025.04.07 |
CBDC의 글로벌 경쟁 – 각국의 중앙은행 디지털 화폐(CBDC) 도입 전략 비교 (2) | 2025.04.06 |
유동성 스테이킹의 발전 – 이더리움 스테이킹 서비스의 미래 (2) | 2025.04.05 |