빅데이터 분석기사[python]/데이터 분석

[데이터 분석] 1-5. 데이터 품질 검증

sunning 2024. 12. 23. 20:54
728x90
데이터 품질이란?
조직의 목적 달성을 위해 관리되는 데이터가 조직 구성원, 고객 등 데이터 이용자의 만족을 충족시킬 수 있는 수준
데이터의 최신성, 정확성, 상호연계성 등을 확보하여 이를 사용자에게 유용한 가치를 줄 수 있는 수준
데이터가 관심 있는 집단에서 사용되기 위해 요구되는 품질 특성을 충족하도록 보장해주는 일련의 지식체계 및 절차

 

데이터 품질 관리의 개념

  • 조직에서 보유한 DB에 저장되어 있는 데이터를 수집, 처리, 보관, 분석하는 동안 무결성(Integrity)을 보장하는 비즈니스 프로세스
  • 데이터 관리 비전, 목표, 전략, 데이터 관리 원칙과 기준, 데이터 관리 절차 등을 모두 포괄하는 데이터 관리(거버넌스) 체계

데이터 품질 관리의 중요성

구분 내용
데이터 분석결과의 신뢰성 확보 데이터 품질에 따라 분석 과정 및 결과의 품질 좌우
일원화된 프로세스 데이터 분석을 위한 업무 처리 및 데이터 관리 효율성 향상
데이터 활용도 향상 고품질의 데이터를 확보함으로써 데이터 활용도 향상
양질의 데이터 확보 분석에 불필요한 데이터를 제거함으로써 고품질 데이터 확보 비율 향상

데이터 품질 기준

- 정형 데이터 품질 기준

품질 기준 내용
완전성(Completeness) 필수 항목에 누락이 없어야 함
유일성(Uniqueness) 데이터 항목은 유일해야 하며 중복되어서는 안됨
유효성(Validity) 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 함
일관성(Consistency) 데이터가 지켜야 할 구조, 값, 표현되는 형태가 일관되게 정의되고, 서로 일치해야 함
정확성(Accuracy) 실세계에 존재하는 객체의 표현 값이 정확히 반영되어야 함

- 비정형 데이터 품질 기준: 신뢰성/ 기능성/ 효율성/ 사용성/ 이식성

품질 진단 방법

품질 진단 방법 방법 설명
프로파일링 값 진단 - 값의 유효성, 정확성 등 값 자체 오류 분석
- Column 분석, 날짜 분석, 패턴 분석, 코드 분석 등으로 정확성 진단
구조 진단 - 일관성, 정합성을 확보하지 못하는 결함 분석
- 표준화 수준, 테이블 구조, 정규화 수준, Column 및 관계 정의 등 데이터 구조적 결함 측정
체크리스트 - 전반적 데이터 품질관리 수준과 지표별 데이터 품질 수준 진단
업무규칙 진단 - 법, 규정에 정의된 업무 기준에 근거하여 데이터가 관리되고 있는지 진단(SQL 등 측정 스크립트 실행)
비정형 실측 - 비정형 데이터를 사람이 수기로 확인 및 조회

 

728x90