728x90

빅데이터 분석기사[python] 16

[데이터 분석] 1-5. 데이터 품질 검증

데이터 품질이란?조직의 목적 달성을 위해 관리되는 데이터가 조직 구성원, 고객 등 데이터 이용자의 만족을 충족시킬 수 있는 수준데이터의 최신성, 정확성, 상호연계성 등을 확보하여 이를 사용자에게 유용한 가치를 줄 수 있는 수준데이터가 관심 있는 집단에서 사용되기 위해 요구되는 품질 특성을 충족하도록 보장해주는 일련의 지식체계 및 절차 데이터 품질 관리의 개념조직에서 보유한 DB에 저장되어 있는 데이터를 수집, 처리, 보관, 분석하는 동안 무결성(Integrity)을 보장하는 비즈니스 프로세스데이터 관리 비전, 목표, 전략, 데이터 관리 원칙과 기준, 데이터 관리 절차 등을 모두 포괄하는 데이터 관리(거버넌스) 체계데이터 품질 관리의 중요성구분내용데이터 분석결과의 신뢰성 확보데이터 품질에 따라 분석 과정 ..

[데이터 분석] 1-3. 데이터 변환

데이터 변환: 추출(Extraction), 변환(Transformation), 적재(Load)의 과정 = ETL과거엔 DBMS의 쿼리나 별도 소프트웨어를 개발하여 이루어졌으나 현재는 ETL 도구들이 광범위하게 사용됨빅데이터 변환의 이해데이터 분석 목적에 따라 데이터를 변환시킬 필요가 있음데이터 변환(Transformation): 정해진 규칙에 의해 바꾸는 것을 의미, 특히 비정형/반정형 데이터를 정형 데이터의 구조적 형태로 전환하여 저장하는 것효과적인 빅데이터 분석을 위해서 레거시(Legacy) 데이터들을 우선 통합하고 비정형 데이터를 정형 데이터로 변환하여 레거시 데이터와의 통합이 이루어짐데이터 전/후처리 단계데이터 전처리: 수집된 데이터를 저장소에 적재하기 위해 데이터 필터링, 유형 변환, 정재 등의..

기본적 데이터 분석을 위한 기초 SQL문

1. 데이터 확인 및 구조 탐색1.1 테이블의 구조 확인테이블의 컬럼 이름과 데이터 타입 확인. DESCRIBE table_name;SHOW COLUMNS FROM table_name;1.2 데이터 미리보기테이블의 첫 몇 행을 확인하여 데이터 구조를 이해. SELECT * FROM table_name LIMIT 10;2. 데이터 요약 및 기본 통계2.1 행 개수 확인데이터의 전체 크기(행 수)를 확인SELECT COUNT(*) AS total_rows FROM table_name;2.2 고유 값 개수 확인특정 컬럼의 고유 값 개수 계산 SELECT COUNT(DISTINCT column_name) AS unique_values FROM table_name;2.3 특정 컬럼의 최소, 최대, 평균, 합계 계..

[데이터 분석] 1-2. 데이터 유형 및 속성 파악

데이터는 크게 수집 대상에 따라 구조/시간/저장 형태 관점에 따라 데이터 유형 및 속성을 분류할 수 있음수집 대상에 따른 데이터 유형관점데이터구조 관점정형 데이터/ 비정형 데이터/ 반정형 데이터시간 관점실시간 데이터/ 비실시간 데이터저장 형태파일 데이터/ 데이터베이스 데이터/ 콘텐츠 데이터/ 스트림 데이터일반적인 데이터의 특징구분정성적 데이터(qualitative data)정량적 데이터(quantitative data)형태비정형 데이터정형/반정형 데이터특징객체 하나에 함의된 정보를 가짐속성이 모여 객체를 이룸구성언어, 문자 등으로 이루어짐수치, 도형, 기호 등으로 이루어짐저장 형태파일, 웹데이터베이스, 스프레드시트소스 위치외부 시스템(주로 소셜 데이터)내부 시스템(주로 RDBMS)구조 관점의 데이터 유형..

[데이터 분석] 1-1. 데이터 수집

데이터 원천(Data source); 데이터를 생성하는 근원지 - 센서( IoT 기기, 자동차, 스마트폰에서 발생하는 데이터 ), 시스템 및 플랫폼( ERP 시스템, CRM 소프트웨어, 로그 파일 등 ) 등데이터 수집; 조직 내/외부에 분산된 다양한 데이터 원천으로부터 필요 데이터를 검색하여 수동/자동으로 데이터를 수집하는 단계데이터 수집의 목표; 분석, 모델링 등의 목표에 맞는 데이터를 효율적으로 모으는 것을 목표로 함 빅데이터 수집 기법기법특징대상Log Aggregator웹 서버 로그, 웹로그, 트랜잭션 로그, DB 로그 등 각종 서비스 로그 수집 오픈 소스 기술로그 데이터 수집크롤링SNS, 웹, 뉴스 정보 등 인터넷 상에서 제공되는 웹 문서에 대한 정보 수집웹 문서 수집스크래핑인터넷 웹 사이트에 노..

[python 파이썬, pandas 판다스] 데이터 탐색 (연속형 자료)

오늘은 연속형 데이터를 파악하는 방법에 대해 알아보자. 범주형 데이터를 분석하는 방법은 아래의 링크에서 확인할 수 있다. https://sunning-10.tistory.com/entry/python-%ED%8C%8C%EC%9D%B4%EC%8D%AC-pandas-%ED%8C%90%EB%8B%A4%EC%8A%A4-%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%83%90%EC%83%89 [python 파이썬, pandas 판다스] 데이터 탐색 (범주형 자료) 오늘은 데이터 탐색 방법에 대해 알아보자. 데이터를 탐색하기 이전에 데이터를 열어서 그 기본정보를 먼저 파악하여 어떤 식으로 분석할지 판단한다. ● 데이터 기본정보 확인 : df명.info() 이를 sunning-10.tistory.com ●..

[python 파이썬, pandas 판다스] 데이터 탐색 (범주형 자료)

오늘은 데이터 탐색 방법에 대해 알아보자. 데이터를 탐색하기 이전에 데이터를 열어서 그 기본정보를 먼저 파악하여 어떤 식으로 분석할지 판단한다. ● 데이터 기본정보 확인 : df명.info() 이를 활용하면 아래와 같이 데이터의 케이스 수, 컬럼 수, 각 컬럼에서의 변수 개수 및 자료 형태가 나타난다. import pandas as pd ## 데이터 열기 DF = pd.read_csv('BigData_data/Ex_CEOSalary.csv', engine='python') ## 데이터 기본정보 확인 DF.info() ● 샘플 데이터 확인 (상위 5개 데이터 확인) : df명.head() head() 변수를 사용하여 데이터의 상위 5개 데이터를 확인할 수 있다. 눈으로 확인하면 좀 더 자료 구조를 파악하는..

[python 파이썬, pandas 판다스] pandas와 numpy 전환

판다스와 넘파이는 서로 간단하게 변환이 가능하다. 머신러닝, 딥러닝에서는 numpy로 분석해야 연산의 속도가 빨라지기 때문에 pandas로 기본 분석을 수행한 후 넘파이로 변환하여 머신러닝이나 딥러닝을 수행한다. 반면에 numpy는 데이터를 눈으로 확인하기 어려워 pandas로 변환하여 데이터를 확인한다. 1) 판다스(pandas)를 넘파이(numpy)로 변경하기 : df.to_numpy() 먼저 판다스로 데이터프레임 형태의 데이터를 불러오자. import pandas as pd DF = pd.read_csv('IRIS.csv', engine = 'python') DF.head() 이것을 DF.to_numpy()를 사용하면 간단히 numpy로 변경하여 불러올 수 있다. 하지만 이때 넘파이로 변환하면 행 ..

[python 파이썬, pandas 판다스] 데이터 값 변경하기, 바꾸기

이번에는 python 판다스에서 데이터의 특정 값을 바꾸고 싶을 때 어떻게 하는지 정리해보자. 먼저 pandas를 import해서 데이터 프레임을 만들어준다. import pandas as pd DF = pd.DataFrame({'name' : ['Minsoo','Minju','Yeomin','Hyeri','Junghun','Sunny','Bummee','Luna'], 'old' : [33,25,19,25,32,36,23,36], 'sex' : ['M','W','W','W','M','W','M','W'], 'score1': [91,50,69,98,72,85,43,61], 'score2': [65,77,56,82,79,91,71,63], 'time' : [30,95,64,88,34,69,15,25], })..

[python 파이썬, pandas 판다스] 데이터 특정 조건 추출

DF = pd.DataFrame({'name' : ['Minsoo','Minju','Yeomin','Hyeri','Junghun','Sunny','Bummee','Luna'], 'old' : [33,25,19,25,32,36,23,36], 'sex' : ['M','W','W','W','M','W','M','W'], 'score1': [91,50,69,98,72,85,43,61], 'score2': [65,77,56,82,79,91,71,63], 'time' : [30,95,64,88,34,69,15,25], }) DF 1) 나이가 30대 이상인 조건 추출하기 DF[DF['old']>=30] 2) 여성 중에 score1이 70점 미만인 조건 추출하기 DF[(DF['sex']=='W') & (DF['scor..

728x90