Python 데이터 분석 라이브러리인 Pandas에 대해서 알아보도록 하겠습니다. Pandas는 데이터 과학자들이 가장 즐겨 사용하는 도구 중 하나로, 데이터 조작과 분석을 위한 다양한 기능을 제공 합니다.
Pandas란?
Pandas는 'Python Data Analysis Library'의 약자로, 구조화된 데이터를 효율적으로 처리하고 분석할 수 있게 해주는 오픈소스 라이브러리 입니다. 엑셀 시트와 유사한 형태의 데이털르 다룰 수 있어, 데이터 부석 초보자들도 쉽게 접근 할 수 있습니다.
Pandas의 주요 특징
- 고성능 데이터 처리
- 다양한 데이터 형식 지원(CSV, Excel, SQL 등)
- 강력한 데이터 조작 기능(필터링, 그룹화 등)
- 데이터 시각화 통합 지원
Pandas 시작하기
Pandas를 사용하기 위해서는 먼저 설치해야 합니다. 아나콘다(Anaconda)를 사용하면 Pandas가 이미 포함되어 있어 편리합니다. 아니면 pip를 통해 설치 할 수 있습니다.

pip install pandas
설치 후, 다음과 같이 import 합니다.
import pandas as pd
Pandas의 기본 자료 구조
pandas에는 두 가지 주요 자료구조가 있습니다.
- Series : 1차원 배열 구조
- DataFrame : 2차원 테이블 구조
Series 생성하기
s = pd.Series([1, 3, 5, np.nan, 6, 8])
DataFrame 생성하기
df = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': ['a', 'b', 'c', 'd']
})
데이터 불러오기
Pandas는 다양한 형식의 파일을 쉽게 불러올 수 있습니다.
# CSV 파일 읽기
df = pd.read_csv('data.csv')
# Excel 파일 읽기
df = pd.read_excel('data.xlsx')
데이터 탐색하기
데이터를 불러왔다면, 기본적인 정보를 확인해야 합니다.
# 상위 5개 행 보기
print(df.head())
# 데이터 정보 확인
print(df.info())
# 기술 통계량 확인
print(df.describe())
데이터 분석
Pandas를 이용한 기본적인 데이터 분석 방법을 알아보겠습니다.
그룹화 및 집계
# 그룹별 평균 계산
grouped = df.groupby('category')['value'].mean()
피벗 테이블
pivot = df.pivot_table(values='value', index='category', columns='date')
데이터 시각화
Pandas는 Matplotlib과 연동하여 간단한 시각화를 지원합니다.
import matplotlib.pyplot as plt
df['value'].plot(kind='bar')
plt.show()
마치며
Pandas는 데이터 분석의 필수 도구 입니다. 이 글에서는 기본적인 사용법만 다뤘지만, 실제로는 훨씬 더 다양하고 강력한 기능들이 있습니다. 데이터 분석에 관심이 있다면, Pandas를 깊이 있게 학습해보는 것을 추천 합니다.
'IT > Python' 카테고리의 다른 글
[Python] Scikit-learn으로 배우는 머신러닝 기초 (0) | 2025.01.12 |
---|---|
[Python] 데이터 시각화 Matplotlib 라이브러리 이용하기 (0) | 2025.01.12 |
[Python] NumPy를 이용한 수치계산 기초 (0) | 2025.01.11 |
[Python] 파이썬 라이브러리 활용에 대해서 알아보자! (0) | 2025.01.10 |
[Python] 파이썬 파일 입출력에 대해서 알아보자! (0) | 2025.01.10 |