IT/Python

[Python] Pandas로 시작하는 데이터 분석 입문

멋진 선배 2025. 1. 11. 20:47
반응형

Python 데이터 분석 라이브러리인 Pandas에 대해서 알아보도록 하겠습니다. Pandas는 데이터 과학자들이 가장 즐겨 사용하는 도구 중 하나로, 데이터 조작과 분석을 위한 다양한 기능을 제공 합니다.

Pandas란?

Pandas는 'Python Data Analysis Library'의 약자로, 구조화된 데이터를 효율적으로 처리하고 분석할 수 있게 해주는 오픈소스 라이브러리 입니다. 엑셀 시트와 유사한 형태의 데이털르 다룰 수 있어, 데이터 부석 초보자들도 쉽게 접근 할 수 있습니다.

Pandas의 주요 특징

  1. 고성능 데이터 처리
  2. 다양한 데이터 형식 지원(CSV, Excel, SQL 등)
  3. 강력한 데이터 조작 기능(필터링, 그룹화 등)
  4. 데이터 시각화 통합 지원

Pandas 시작하기

Pandas를 사용하기 위해서는 먼저 설치해야 합니다. 아나콘다(Anaconda)를 사용하면 Pandas가 이미 포함되어 있어 편리합니다. 아니면 pip를 통해 설치 할 수 있습니다.

설치 화면

pip install pandas

설치 후, 다음과 같이 import  합니다.

import pandas as pd

Pandas의 기본 자료 구조

pandas에는 두 가지 주요 자료구조가 있습니다.

  1. Series :  1차원 배열 구조
  2. DataFrame : 2차원 테이블 구조

Series 생성하기

s = pd.Series([1, 3, 5, np.nan, 6, 8])

 

DataFrame 생성하기

df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': ['a', 'b', 'c', 'd']
})

데이터 불러오기

Pandas는 다양한 형식의 파일을 쉽게 불러올 수 있습니다.

# CSV 파일 읽기
df = pd.read_csv('data.csv')

# Excel 파일 읽기
df = pd.read_excel('data.xlsx')

데이터 탐색하기

데이터를 불러왔다면, 기본적인 정보를 확인해야 합니다.

# 상위 5개 행 보기
print(df.head())

# 데이터 정보 확인
print(df.info())

# 기술 통계량 확인
print(df.describe())

데이터 분석

Pandas를 이용한 기본적인 데이터 분석 방법을 알아보겠습니다.

 

그룹화 및 집계

# 그룹별 평균 계산
grouped = df.groupby('category')['value'].mean()

 

피벗 테이블

pivot = df.pivot_table(values='value', index='category', columns='date')

 

데이터 시각화

Pandas는 Matplotlib과 연동하여 간단한 시각화를 지원합니다.

import matplotlib.pyplot as plt

df['value'].plot(kind='bar')
plt.show()

 

마치며

 Pandas는 데이터 분석의 필수 도구 입니다. 이 글에서는 기본적인 사용법만 다뤘지만, 실제로는 훨씬 더 다양하고 강력한 기능들이 있습니다. 데이터 분석에 관심이 있다면, Pandas를 깊이 있게 학습해보는 것을 추천 합니다.

 

 

반응형