728x90
데이터 품질이란?
조직의 목적 달성을 위해 관리되는 데이터가 조직 구성원, 고객 등 데이터 이용자의 만족을 충족시킬 수 있는 수준
데이터의 최신성, 정확성, 상호연계성 등을 확보하여 이를 사용자에게 유용한 가치를 줄 수 있는 수준
데이터가 관심 있는 집단에서 사용되기 위해 요구되는 품질 특성을 충족하도록 보장해주는 일련의 지식체계 및 절차
데이터 품질 관리의 개념
- 조직에서 보유한 DB에 저장되어 있는 데이터를 수집, 처리, 보관, 분석하는 동안 무결성(Integrity)을 보장하는 비즈니스 프로세스
- 데이터 관리 비전, 목표, 전략, 데이터 관리 원칙과 기준, 데이터 관리 절차 등을 모두 포괄하는 데이터 관리(거버넌스) 체계
데이터 품질 관리의 중요성
구분 | 내용 |
데이터 분석결과의 신뢰성 확보 | 데이터 품질에 따라 분석 과정 및 결과의 품질 좌우 |
일원화된 프로세스 | 데이터 분석을 위한 업무 처리 및 데이터 관리 효율성 향상 |
데이터 활용도 향상 | 고품질의 데이터를 확보함으로써 데이터 활용도 향상 |
양질의 데이터 확보 | 분석에 불필요한 데이터를 제거함으로써 고품질 데이터 확보 비율 향상 |
데이터 품질 기준
- 정형 데이터 품질 기준
품질 기준 | 내용 |
완전성(Completeness) | 필수 항목에 누락이 없어야 함 |
유일성(Uniqueness) | 데이터 항목은 유일해야 하며 중복되어서는 안됨 |
유효성(Validity) | 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 함 |
일관성(Consistency) | 데이터가 지켜야 할 구조, 값, 표현되는 형태가 일관되게 정의되고, 서로 일치해야 함 |
정확성(Accuracy) | 실세계에 존재하는 객체의 표현 값이 정확히 반영되어야 함 |
- 비정형 데이터 품질 기준: 신뢰성/ 기능성/ 효율성/ 사용성/ 이식성
품질 진단 방법
품질 진단 방법 | 방법 설명 | |
프로파일링 | 값 진단 | - 값의 유효성, 정확성 등 값 자체 오류 분석 - Column 분석, 날짜 분석, 패턴 분석, 코드 분석 등으로 정확성 진단 |
구조 진단 | - 일관성, 정합성을 확보하지 못하는 결함 분석 - 표준화 수준, 테이블 구조, 정규화 수준, Column 및 관계 정의 등 데이터 구조적 결함 측정 |
|
체크리스트 | - 전반적 데이터 품질관리 수준과 지표별 데이터 품질 수준 진단 | |
업무규칙 진단 | - 법, 규정에 정의된 업무 기준에 근거하여 데이터가 관리되고 있는지 진단(SQL 등 측정 스크립트 실행) | |
비정형 실측 | - 비정형 데이터를 사람이 수기로 확인 및 조회 |
728x90
'빅데이터 분석기사[python] > 데이터 분석' 카테고리의 다른 글
[데이터 분석] 1-3. 데이터 변환 (0) | 2024.12.23 |
---|---|
기본적 데이터 분석을 위한 기초 SQL문 (0) | 2024.12.22 |
[데이터 분석] 1-2. 데이터 유형 및 속성 파악 (0) | 2024.12.22 |
[데이터 분석] 1-1. 데이터 수집 (0) | 2024.12.22 |