728x90

데이터 분석 5

[데이터 분석] 1-5. 데이터 품질 검증

데이터 품질이란?조직의 목적 달성을 위해 관리되는 데이터가 조직 구성원, 고객 등 데이터 이용자의 만족을 충족시킬 수 있는 수준데이터의 최신성, 정확성, 상호연계성 등을 확보하여 이를 사용자에게 유용한 가치를 줄 수 있는 수준데이터가 관심 있는 집단에서 사용되기 위해 요구되는 품질 특성을 충족하도록 보장해주는 일련의 지식체계 및 절차 데이터 품질 관리의 개념조직에서 보유한 DB에 저장되어 있는 데이터를 수집, 처리, 보관, 분석하는 동안 무결성(Integrity)을 보장하는 비즈니스 프로세스데이터 관리 비전, 목표, 전략, 데이터 관리 원칙과 기준, 데이터 관리 절차 등을 모두 포괄하는 데이터 관리(거버넌스) 체계데이터 품질 관리의 중요성구분내용데이터 분석결과의 신뢰성 확보데이터 품질에 따라 분석 과정 ..

[데이터 분석] 1-3. 데이터 변환

데이터 변환: 추출(Extraction), 변환(Transformation), 적재(Load)의 과정 = ETL과거엔 DBMS의 쿼리나 별도 소프트웨어를 개발하여 이루어졌으나 현재는 ETL 도구들이 광범위하게 사용됨빅데이터 변환의 이해데이터 분석 목적에 따라 데이터를 변환시킬 필요가 있음데이터 변환(Transformation): 정해진 규칙에 의해 바꾸는 것을 의미, 특히 비정형/반정형 데이터를 정형 데이터의 구조적 형태로 전환하여 저장하는 것효과적인 빅데이터 분석을 위해서 레거시(Legacy) 데이터들을 우선 통합하고 비정형 데이터를 정형 데이터로 변환하여 레거시 데이터와의 통합이 이루어짐데이터 전/후처리 단계데이터 전처리: 수집된 데이터를 저장소에 적재하기 위해 데이터 필터링, 유형 변환, 정재 등의..

기본적 데이터 분석을 위한 기초 SQL문

1. 데이터 확인 및 구조 탐색1.1 테이블의 구조 확인테이블의 컬럼 이름과 데이터 타입 확인. DESCRIBE table_name;SHOW COLUMNS FROM table_name;1.2 데이터 미리보기테이블의 첫 몇 행을 확인하여 데이터 구조를 이해. SELECT * FROM table_name LIMIT 10;2. 데이터 요약 및 기본 통계2.1 행 개수 확인데이터의 전체 크기(행 수)를 확인SELECT COUNT(*) AS total_rows FROM table_name;2.2 고유 값 개수 확인특정 컬럼의 고유 값 개수 계산 SELECT COUNT(DISTINCT column_name) AS unique_values FROM table_name;2.3 특정 컬럼의 최소, 최대, 평균, 합계 계..

[데이터 분석] 1-2. 데이터 유형 및 속성 파악

데이터는 크게 수집 대상에 따라 구조/시간/저장 형태 관점에 따라 데이터 유형 및 속성을 분류할 수 있음수집 대상에 따른 데이터 유형관점데이터구조 관점정형 데이터/ 비정형 데이터/ 반정형 데이터시간 관점실시간 데이터/ 비실시간 데이터저장 형태파일 데이터/ 데이터베이스 데이터/ 콘텐츠 데이터/ 스트림 데이터일반적인 데이터의 특징구분정성적 데이터(qualitative data)정량적 데이터(quantitative data)형태비정형 데이터정형/반정형 데이터특징객체 하나에 함의된 정보를 가짐속성이 모여 객체를 이룸구성언어, 문자 등으로 이루어짐수치, 도형, 기호 등으로 이루어짐저장 형태파일, 웹데이터베이스, 스프레드시트소스 위치외부 시스템(주로 소셜 데이터)내부 시스템(주로 RDBMS)구조 관점의 데이터 유형..

[데이터 분석] 1-1. 데이터 수집

데이터 원천(Data source); 데이터를 생성하는 근원지 - 센서( IoT 기기, 자동차, 스마트폰에서 발생하는 데이터 ), 시스템 및 플랫폼( ERP 시스템, CRM 소프트웨어, 로그 파일 등 ) 등데이터 수집; 조직 내/외부에 분산된 다양한 데이터 원천으로부터 필요 데이터를 검색하여 수동/자동으로 데이터를 수집하는 단계데이터 수집의 목표; 분석, 모델링 등의 목표에 맞는 데이터를 효율적으로 모으는 것을 목표로 함 빅데이터 수집 기법기법특징대상Log Aggregator웹 서버 로그, 웹로그, 트랜잭션 로그, DB 로그 등 각종 서비스 로그 수집 오픈 소스 기술로그 데이터 수집크롤링SNS, 웹, 뉴스 정보 등 인터넷 상에서 제공되는 웹 문서에 대한 정보 수집웹 문서 수집스크래핑인터넷 웹 사이트에 노..

728x90