빅데이터 분석기사[python]/pandas와 기본 데이터 처리

[python 파이썬, pandas 판다스] 데이터 변환2 (열 필터링, 열 추가, 열 삭제)

sunning 2022. 5. 10. 23:49
728x90

데이터 변환 두 번째 정리에서는 열 필터링, 열 추가, 열 삭제 관련한 내용을 정리하려고 한다.

데이터 복사하기, 행 인덱스 및 칼럼명 확인하고 변경하기 관련 내용은 이전 포스팅인 아래의 링크를 참고하면 된다.

 

 

[python 파이썬, pandas 판다스] 데이터 변환1 (데이터 복사, 행과 열의 이름 확인하기 및 변경하기)

판다스에서 데이터프레임 형태로 불러온 데이터는 복사도 가능하며 행 인덱스, 열이름을 확인하고 바꾸기도 가능하다. 이번엔 이러한 기능들에 대해 정리하고자 한다. 예시를 들기 위하여 kaggle

sunning-10.tistory.com


예시를 위해 간단한 데이터프레임을 생성하였다.

 

DF = pd.DataFrame({'name' : ['Minsoo','Minju','Yeomin','Hyeri','Junghun','Sunny','Bummee','Luna'],
                   'old'  : [33,25,19,25,32,36,23,36],
                   'sex'  : ['M','W','W','W','M','W','M','W'],
                   'score': [91,50,69,98,72,85,43,61], 
                   'time' : [30,95,64,88,34,69,15,25],
                   })
DF

 

 

1) 데이터프레임 열(칼럼, column) 추출하기 : df[['추출하려는 칼럼명1','추출하려는 칼럼명2',,,]]

DF에서 익명성 보장을 위해 이름을 제외하고 나이, 성별, 점수, 시간(문제를 해결하는데 걸린 시간)을 추출하고자 한다. 그러면 앞에서 정리했던 칼럼명으로 데이터 찾기 방법 중 하나였던 df[['칼럼명']]을 확장하면 된다.

 

DF[['old','sex','score','time']]

 

 

2) 데이터프레임 열 생성하기

다음은 DF의 점수(score)을 문제를 푸는데 걸린 시간(time)으로 나눈 새로운 변수를 'score rate'라는 이름의 칼럼으로 추가해보자.

 

DF['score rate'] = DF['score']/DF['time']
DF

 

 

3) 데이터프레임 열 삭제하기 : del 데이터셋명['칼럼명']

사실 DF에서 이름만 삭제하기 위해서는 나머지 칼럼들을 추출하는 것보다 'name' 칼럼을 삭제하는 것이 더 효율적이다.

이렇게 특정 데이터 칼럼 자체를 삭제하는 방법은 아래와 같다.

 

del DF['name']
DF

 

 

728x90