빅데이터 분석기사[python]/데이터 분석

[데이터 분석] 1-2. 데이터 유형 및 속성 파악

sunning 2024. 12. 22. 21:52
728x90
데이터는 크게 수집 대상에 따라 구조/시간/저장 형태 관점에 따라 데이터 유형 및 속성을 분류할 수 있음

수집 대상에 따른 데이터 유형

관점 데이터
구조 관점 정형 데이터/ 비정형 데이터/ 반정형 데이터
시간 관점 실시간 데이터/ 비실시간 데이터
저장 형태 파일 데이터/ 데이터베이스 데이터/ 콘텐츠 데이터/ 스트림 데이터

일반적인 데이터의 특징

구분 정성적 데이터(qualitative data) 정량적 데이터(quantitative data)
형태 비정형 데이터 정형/반정형 데이터
특징 객체 하나에 함의된 정보를 가짐 속성이 모여 객체를 이룸
구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐
저장 형태 파일, 웹 데이터베이스, 스프레드시트
소스 위치 외부 시스템(주로 소셜 데이터) 내부 시스템(주로 RDBMS)

구조 관점의 데이터 유형

유형 특성 종류
정형 데이터 - 정형화된 스키마를 가짐
- 일관성 있는 값과 형식을 가짐
RDB, 스프레드시트, 파일, 통계
반정형 데이터 - 정형화된 스키마를 가짐
- 값과 형식에 일관성이 없음
- 메타데이터 포함
XML, JSON, HTML, 웹 로그, 알람, 시스템 로그, RSS, 센서 데이터
비정형 데이터 - 스키마 없음 SNS, NoSQL, 웹 게시판, 텍스트, 이미지, 오디오 비디오

* 메타 데이터(Metadata): 데이터를 설명하는 데이터에 대한 정보(데이터의 속성, 구조, 생성 방식 등을 나타내는 데이터)

시간 관점의 데이터 유형

유형 특성 종류
실시간 데이터 생성된 이후 즉시 처리 혹은 데이터가 처리 유효 시간 내에 처리되어야만 효용 가치가 있는 현재 데이터 센서 데이터, 시스템 로그, 네트워크 장비 로그, 알람, 보안 장비 로그
비실시간 데이터
(배치 데이터)
생성된 이후 일정 시간이 지난 후에라도 효용 가치가 있는 과거 데이터 통계, 웹 로그, 구매 정보, 서비스 로그, 헬스케어 정보

저장 형태 관점의 데이터 유형

유형 특성 종류
파일 데이터 파일 형식 데이터로 단일 대용량 파일, 다수의 소용량 파일 데이터 시스템 로그, 서비스 로그, 텍스트, 스프레드시트
데이터베이스 데이터 데이터 종류 및 성격에 따라 구성 관계형 데이터베이스, NoSQL, 인메모리 데이터베이스
콘텐츠 데이터 개별적 객체 구분 텍스트, 이미지, 오디오, 비디오
스트림 데이터 네트워크 기반의 실시간 전송 센서 데이터, HTTP 트랜잭션, 알람

 

728x90