728x90

데이터프레임 6

[python 파이썬, pandas 판다스] 데이터 탐색 (범주형 자료)

오늘은 데이터 탐색 방법에 대해 알아보자. 데이터를 탐색하기 이전에 데이터를 열어서 그 기본정보를 먼저 파악하여 어떤 식으로 분석할지 판단한다. ● 데이터 기본정보 확인 : df명.info() 이를 활용하면 아래와 같이 데이터의 케이스 수, 컬럼 수, 각 컬럼에서의 변수 개수 및 자료 형태가 나타난다. import pandas as pd ## 데이터 열기 DF = pd.read_csv('BigData_data/Ex_CEOSalary.csv', engine='python') ## 데이터 기본정보 확인 DF.info() ● 샘플 데이터 확인 (상위 5개 데이터 확인) : df명.head() head() 변수를 사용하여 데이터의 상위 5개 데이터를 확인할 수 있다. 눈으로 확인하면 좀 더 자료 구조를 파악하는..

[python 파이썬, pandas 판다스] pandas와 numpy 전환

판다스와 넘파이는 서로 간단하게 변환이 가능하다. 머신러닝, 딥러닝에서는 numpy로 분석해야 연산의 속도가 빨라지기 때문에 pandas로 기본 분석을 수행한 후 넘파이로 변환하여 머신러닝이나 딥러닝을 수행한다. 반면에 numpy는 데이터를 눈으로 확인하기 어려워 pandas로 변환하여 데이터를 확인한다. 1) 판다스(pandas)를 넘파이(numpy)로 변경하기 : df.to_numpy() 먼저 판다스로 데이터프레임 형태의 데이터를 불러오자. import pandas as pd DF = pd.read_csv('IRIS.csv', engine = 'python') DF.head() 이것을 DF.to_numpy()를 사용하면 간단히 numpy로 변경하여 불러올 수 있다. 하지만 이때 넘파이로 변환하면 행 ..

[python 파이썬, pandas 판다스] 데이터 특정 조건 추출

DF = pd.DataFrame({'name' : ['Minsoo','Minju','Yeomin','Hyeri','Junghun','Sunny','Bummee','Luna'], 'old' : [33,25,19,25,32,36,23,36], 'sex' : ['M','W','W','W','M','W','M','W'], 'score1': [91,50,69,98,72,85,43,61], 'score2': [65,77,56,82,79,91,71,63], 'time' : [30,95,64,88,34,69,15,25], }) DF 1) 나이가 30대 이상인 조건 추출하기 DF[DF['old']>=30] 2) 여성 중에 score1이 70점 미만인 조건 추출하기 DF[(DF['sex']=='W') & (DF['scor..

[python 파이썬, pandas 판다스] 데이터 변환2 (열 필터링, 열 추가, 열 삭제)

데이터 변환 두 번째 정리에서는 열 필터링, 열 추가, 열 삭제 관련한 내용을 정리하려고 한다. 데이터 복사하기, 행 인덱스 및 칼럼명 확인하고 변경하기 관련 내용은 이전 포스팅인 아래의 링크를 참고하면 된다. [python 파이썬, pandas 판다스] 데이터 변환1 (데이터 복사, 행과 열의 이름 확인하기 및 변경하기) 판다스에서 데이터프레임 형태로 불러온 데이터는 복사도 가능하며 행 인덱스, 열이름을 확인하고 바꾸기도 가능하다. 이번엔 이러한 기능들에 대해 정리하고자 한다. 예시를 들기 위하여 kaggle sunning-10.tistory.com 예시를 위해 간단한 데이터프레임을 생성하였다. DF = pd.DataFrame({'name' : ['Minsoo','Minju','Yeomin','Hyer..

[python 파이썬, pandas 판다스] 데이터 변환1 (데이터 복사, 행과 열의 이름 확인하기 및 변경하기)

판다스에서 데이터프레임 형태로 불러온 데이터는 복사도 가능하며 행 인덱스, 열이름을 확인하고 바꾸기도 가능하다. 이번엔 이러한 기능들에 대해 정리하고자 한다. 예시를 들기 위하여 kaggle의 예제 데이터를 사용하였다. 먼저 read_csv로 데이터를 불러온다. import pandas as pd DF = pd.read_csv('IRIS.csv', engine = 'python') DF.head() 1) 데이터프레임 복사하기 : df명.copy() 데이터 사용 시 데이터 DF를 DF1으로 복사하고 싶은 경우가 있다. 이때 주의할 점은 단순하게 DF1 = DF로 설정하면 향후 DF가 변경되면 DF1도 함께 변경된다는 것이다. 예로 DF1 = DF로 설정한 후에 DF의 칼럼명이 species인 열의 값을 다..

[python 파이썬, pandas 판다스] DataFrame 열(column) & 행(row) 불러오기

파이썬의 pandas에서 데이터프레임 형태로 데이터를 불러왔다면 이것을 확인하는 방법을 알아야한다. 데이터는 많은 행과 열로 이루어져 있으며 데이터에 따라 그 개수도 천차만별이다. 이것을 행 기준의 특정 부분, 혹은 열 기준의 특정 부분만 확인하려면 어떻게 해야할까? 예시로 사용할 데이터는 kaggle에서 다운로드받은 IRIS.csv 데이터를 사용하겠다. 먼저 pd.read_csv를 활용하여 데이터를 불러오자. 행(row) 기준 확인/불러오기 맨 앞 & 맨 뒤의 행 확인 : head(), tail() 변수명.head(불러올 행 개수) : 앞에서부터 n개의 행 확인 변수명.tail(불러올 행 개수) : 뒤에서부터 n개의 행 확인 head와 tail 모두 괄호 안이 공백이면 5개의 행만 출력한다. 150개의..

728x90