-
Pandas, 너 도대체 뭐니? (Series와 DataFrame 핵심만 콕콕!)pandas 2025. 7. 16. 11:08
오늘은 판다스의 가장 기본이자 핵심인 Series와 DataFrame이 뭔지, 취준생 눈높이에서 완전 쉽게 정리해 볼게요. 이것만 알아도 일단 절반은 먹고 들어갑니다!
1. Pandas란? (데이터 전처리의 끝판왕)
쉽게 말해서, 파이썬으로 지저분한 데이터를 만질 때 쓰는 필수템이에요.
우리가 앞으로 회사에서 받게 될 데이터는 절대 깔끔하지 않거든요. 엑셀이나 csv 파일을 받아서, 우리가 분석하기 좋게 요리조리 주무르는 모든 과정을 판다스가 도와준다고 생각하면 돼요. 진짜 이거 없으면 데이터 분석 못 합니다 (단호).
2. Series란? (이름표 붙은 한 줄짜리 데이터)
이건 그냥 **엑셀 표의 '세로 한 줄'**이라고 생각하면 제일 편해요.
예를 들어 '나이'라는 열에 25, 30, 22... 이렇게 쭉 데이터가 있죠? 이게 바로 Series예요. 중요한 건, 각 데이터마다 '0번째', '1번째' 같은 **이름표(인덱스)**가 붙어 있다는 점! 그래서 나중에 '3번째 나이가 몇 살이지?' 하고 쉽게 찾아볼 수 있어요.
백문이 불여일견! 코드로 한번 볼까요?
import pandas as pd # 판다스를 쓰려면 꼭 먼저 불러와야 해요! pd라는 별명으로. # 그냥 파이썬 리스트를 만들어 볼게요. ages_list = [25, 30, 22, 28] # 이 리스트를 판다스 Series로 변신! ages_series = pd.Series(ages_list) print(ages_series)
👇 실행 결과 👇
0 25 1 30 2 22 3 28 dtype: int64
3. DataFrame이란? (우리가 아는 바로 그 '엑셀 표')
드디어 주인공 등장! DataFrame은 위에서 말한 Series 여러 개를 합쳐놓은 2차원 표예요.
'이름' Series, '나이' Series, '사는 곳' Series를 옆으로 쭉 붙여놓으면? 우리가 맨날 보는 그 엑셀 표가 되죠. 그게 바로 DataFrame입니다. 완전 간단하죠? 앞으로 우리가 판다스로 분석할 데이터는 99% 이 DataFrame 형태일 거예요.
이것도 바로 코드로 볼게요. 훨씬 이해가 빠를 거예요.
import pandas as pd # 파이썬 딕셔너리(Dictionary)로 데이터를 준비해 볼게요. # { '열 이름1': [데이터들], '열 이름2': [데이터들] } 이런 식으로요. my_data = { '이름': ['김철수', '이영희', '박민준', '최지아'], '나이': [25, 30, 22, 28] } # 이 딕셔너리를 DataFrame으로 변신! df = pd.DataFrame(my_data) print(df)
👇 실행 결과 👇
이름 나이 0 김철수 25 1 이영희 30 2 박민준 22 3 최지아 28
⭐ 헷갈리면 이것만 외우세요! (핵심 비유)
아직도 좀 아리송하다면, 딱 이것만 머리에 저장해두세요!
- Pandas 🐼: 데이터를 요리하는 '엑셀 프로그램' 그 자체
- DataFrame 📄: 엑셀 프로그램으로 열어본 '시트' 파일 한 개
- Series │: 그 시트 안에 있는 '세로 한 줄'
어때요, 이렇게 보니까 훨씬 쉽죠? 이 관계만 이해해도 앞으로 판다스 공부할 때 멘붕 오는 일이 확 줄어들 거예요. 우리 같이 화이팅해요
'pandas' 카테고리의 다른 글
os.mkdir()가 필요한 이유 (2) 2025.07.18 os.makedirs() 함수란? (2) 2025.07.18 이스케이프 시퀀스(Escape Sequence)란? (4) 2025.07.17 파이썬 파일 경로 다루기: os.path.join(), os.listdir(), r'', 리스트 컴프리헨션 완벽 정리 (2) 2025.07.17