728x90
데이터는 크게 수집 대상에 따라 구조/시간/저장 형태 관점에 따라 데이터 유형 및 속성을 분류할 수 있음
수집 대상에 따른 데이터 유형
관점 | 데이터 |
구조 관점 | 정형 데이터/ 비정형 데이터/ 반정형 데이터 |
시간 관점 | 실시간 데이터/ 비실시간 데이터 |
저장 형태 | 파일 데이터/ 데이터베이스 데이터/ 콘텐츠 데이터/ 스트림 데이터 |
일반적인 데이터의 특징
구분 | 정성적 데이터(qualitative data) | 정량적 데이터(quantitative data) |
형태 | 비정형 데이터 | 정형/반정형 데이터 |
특징 | 객체 하나에 함의된 정보를 가짐 | 속성이 모여 객체를 이룸 |
구성 | 언어, 문자 등으로 이루어짐 | 수치, 도형, 기호 등으로 이루어짐 |
저장 형태 | 파일, 웹 | 데이터베이스, 스프레드시트 |
소스 위치 | 외부 시스템(주로 소셜 데이터) | 내부 시스템(주로 RDBMS) |
구조 관점의 데이터 유형
유형 | 특성 | 종류 |
정형 데이터 | - 정형화된 스키마를 가짐 - 일관성 있는 값과 형식을 가짐 |
RDB, 스프레드시트, 파일, 통계 |
반정형 데이터 | - 정형화된 스키마를 가짐 - 값과 형식에 일관성이 없음 - 메타데이터 포함 |
XML, JSON, HTML, 웹 로그, 알람, 시스템 로그, RSS, 센서 데이터 |
비정형 데이터 | - 스키마 없음 | SNS, NoSQL, 웹 게시판, 텍스트, 이미지, 오디오 비디오 |
* 메타 데이터(Metadata): 데이터를 설명하는 데이터에 대한 정보(데이터의 속성, 구조, 생성 방식 등을 나타내는 데이터)
시간 관점의 데이터 유형
유형 | 특성 | 종류 |
실시간 데이터 | 생성된 이후 즉시 처리 혹은 데이터가 처리 유효 시간 내에 처리되어야만 효용 가치가 있는 현재 데이터 | 센서 데이터, 시스템 로그, 네트워크 장비 로그, 알람, 보안 장비 로그 |
비실시간 데이터 (배치 데이터) |
생성된 이후 일정 시간이 지난 후에라도 효용 가치가 있는 과거 데이터 | 통계, 웹 로그, 구매 정보, 서비스 로그, 헬스케어 정보 |
저장 형태 관점의 데이터 유형
유형 | 특성 | 종류 |
파일 데이터 | 파일 형식 데이터로 단일 대용량 파일, 다수의 소용량 파일 데이터 | 시스템 로그, 서비스 로그, 텍스트, 스프레드시트 |
데이터베이스 데이터 | 데이터 종류 및 성격에 따라 구성 | 관계형 데이터베이스, NoSQL, 인메모리 데이터베이스 |
콘텐츠 데이터 | 개별적 객체 구분 | 텍스트, 이미지, 오디오, 비디오 |
스트림 데이터 | 네트워크 기반의 실시간 전송 | 센서 데이터, HTTP 트랜잭션, 알람 |
728x90
'빅데이터 분석기사[python] > 데이터 분석' 카테고리의 다른 글
[데이터 분석] 1-5. 데이터 품질 검증 (0) | 2024.12.23 |
---|---|
[데이터 분석] 1-3. 데이터 변환 (0) | 2024.12.23 |
기본적 데이터 분석을 위한 기초 SQL문 (0) | 2024.12.22 |
[데이터 분석] 1-1. 데이터 수집 (0) | 2024.12.22 |