728x90

전체 글 70

[데이터 분석] 1-5. 데이터 품질 검증

데이터 품질이란?조직의 목적 달성을 위해 관리되는 데이터가 조직 구성원, 고객 등 데이터 이용자의 만족을 충족시킬 수 있는 수준데이터의 최신성, 정확성, 상호연계성 등을 확보하여 이를 사용자에게 유용한 가치를 줄 수 있는 수준데이터가 관심 있는 집단에서 사용되기 위해 요구되는 품질 특성을 충족하도록 보장해주는 일련의 지식체계 및 절차 데이터 품질 관리의 개념조직에서 보유한 DB에 저장되어 있는 데이터를 수집, 처리, 보관, 분석하는 동안 무결성(Integrity)을 보장하는 비즈니스 프로세스데이터 관리 비전, 목표, 전략, 데이터 관리 원칙과 기준, 데이터 관리 절차 등을 모두 포괄하는 데이터 관리(거버넌스) 체계데이터 품질 관리의 중요성구분내용데이터 분석결과의 신뢰성 확보데이터 품질에 따라 분석 과정 ..

[데이터 분석] 1-3. 데이터 변환

데이터 변환: 추출(Extraction), 변환(Transformation), 적재(Load)의 과정 = ETL과거엔 DBMS의 쿼리나 별도 소프트웨어를 개발하여 이루어졌으나 현재는 ETL 도구들이 광범위하게 사용됨빅데이터 변환의 이해데이터 분석 목적에 따라 데이터를 변환시킬 필요가 있음데이터 변환(Transformation): 정해진 규칙에 의해 바꾸는 것을 의미, 특히 비정형/반정형 데이터를 정형 데이터의 구조적 형태로 전환하여 저장하는 것효과적인 빅데이터 분석을 위해서 레거시(Legacy) 데이터들을 우선 통합하고 비정형 데이터를 정형 데이터로 변환하여 레거시 데이터와의 통합이 이루어짐데이터 전/후처리 단계데이터 전처리: 수집된 데이터를 저장소에 적재하기 위해 데이터 필터링, 유형 변환, 정재 등의..

기본적 데이터 분석을 위한 기초 SQL문

1. 데이터 확인 및 구조 탐색1.1 테이블의 구조 확인테이블의 컬럼 이름과 데이터 타입 확인. DESCRIBE table_name;SHOW COLUMNS FROM table_name;1.2 데이터 미리보기테이블의 첫 몇 행을 확인하여 데이터 구조를 이해. SELECT * FROM table_name LIMIT 10;2. 데이터 요약 및 기본 통계2.1 행 개수 확인데이터의 전체 크기(행 수)를 확인SELECT COUNT(*) AS total_rows FROM table_name;2.2 고유 값 개수 확인특정 컬럼의 고유 값 개수 계산 SELECT COUNT(DISTINCT column_name) AS unique_values FROM table_name;2.3 특정 컬럼의 최소, 최대, 평균, 합계 계..

[데이터 분석] 1-2. 데이터 유형 및 속성 파악

데이터는 크게 수집 대상에 따라 구조/시간/저장 형태 관점에 따라 데이터 유형 및 속성을 분류할 수 있음수집 대상에 따른 데이터 유형관점데이터구조 관점정형 데이터/ 비정형 데이터/ 반정형 데이터시간 관점실시간 데이터/ 비실시간 데이터저장 형태파일 데이터/ 데이터베이스 데이터/ 콘텐츠 데이터/ 스트림 데이터일반적인 데이터의 특징구분정성적 데이터(qualitative data)정량적 데이터(quantitative data)형태비정형 데이터정형/반정형 데이터특징객체 하나에 함의된 정보를 가짐속성이 모여 객체를 이룸구성언어, 문자 등으로 이루어짐수치, 도형, 기호 등으로 이루어짐저장 형태파일, 웹데이터베이스, 스프레드시트소스 위치외부 시스템(주로 소셜 데이터)내부 시스템(주로 RDBMS)구조 관점의 데이터 유형..

[데이터 분석] 1-1. 데이터 수집

데이터 원천(Data source); 데이터를 생성하는 근원지 - 센서( IoT 기기, 자동차, 스마트폰에서 발생하는 데이터 ), 시스템 및 플랫폼( ERP 시스템, CRM 소프트웨어, 로그 파일 등 ) 등데이터 수집; 조직 내/외부에 분산된 다양한 데이터 원천으로부터 필요 데이터를 검색하여 수동/자동으로 데이터를 수집하는 단계데이터 수집의 목표; 분석, 모델링 등의 목표에 맞는 데이터를 효율적으로 모으는 것을 목표로 함 빅데이터 수집 기법기법특징대상Log Aggregator웹 서버 로그, 웹로그, 트랜잭션 로그, DB 로그 등 각종 서비스 로그 수집 오픈 소스 기술로그 데이터 수집크롤링SNS, 웹, 뉴스 정보 등 인터넷 상에서 제공되는 웹 문서에 대한 정보 수집웹 문서 수집스크래핑인터넷 웹 사이트에 노..

Llama3

Llama3 관련 기초Llama3: Meta에서 만든 경량화 모Llama3 관련 기초 Llama3: Meta에서 만든 경량화 모델 Llama 3는 Meta에서 개발한 최신 대형 언어 모델(LLM)로, 다양한 작업을 처리할 수 있는 인공지능 모델입니다. 이 모델은 주로 자연어 처리, 텍스트 생성, 코드 작성, 이미지와 텍스트를 함께 처리하는 멀티모달 작업까지 지원하는 것이 특징입니다. Llama 3는 이전 버전인 Llama 2보다 7배 더 많은 데이터(15조 토큰)를 학습했으며, 이를 통해 더욱 정교한 언어 이해와 복잡한 문제 해결이 가능합니다​.Llama 3의 주요 개선 사항 중 하나는 어휘 확장입니다. 128,000개 이상의 토큰을 처리할 수 있어, 긴 대화나 문서에서도 맥락을 잘 유지할 수 있습니다...

카테고리 없음 2024.09.08

LLM과 생성형 AI, RAG, LangChain 등등

이 글은 sLM, LLM을 공부하면서 헷갈리는 내용들을 명확히 하기 위한 글이다. 1) LLM과 생성형 AILLM(Large Language Model)이 항상 생성형 AI(Generative AI)인 것은 아님.LLM의 특성과 활용 방식에 따라 생성형일 수도 있고, 그렇지 않을 수도 있음.LLM이 어떻게 사용되느냐에 따라 그 역할과 범주가 결정됨.- LLM과 생성형 AI의 관계LLM (Large Language Model)대형 언어 모델은 방대한 양의 텍스트 데이터를 학습하여 텍스트를 이해하고 생성하는 데 사용할 수 있는 모델이들은 주어진 입력에 대한 반응으로 텍스트를 예측하고 생성 (GPT-3, BERT, T5 등)생성형 AI (Generative AI)새로운 데이터를 생성하는 데 중점을 둔 AI의 ..

LLM 2024.08.31

LLM 모델 Postprocessing 및 fine-tuning

모델의 Post-processing(후처리)모델이 사전 훈련(pre-trained)되거나, 로드된 이후에 추가적으로 적용되는 조정이나 설정 단계모델의 기본 학습 단계와 구별되는 작업으로, 모델의 성능을 최적화하거나 특정 사용 사례에 맞게 조정하기 위한 추가 작업을 포함Postprocessing 과정8비트 양자화 후 일부 파라미터를 32비트로 캐스팅양자화(Quantization)연속적인 값을 가지는 데이터를 더 적은 비트 수를 사용하여 표현하기 위해 이산적인 값 집합으로 근사하는 과정머신러닝과 딥러닝에서는 주로 모델의 가중치나 활성화 값과 같은 부동 소수점 데이터(float32 또는 float16)를 더 낮은 정밀도의 정수형 데이터(int8 등)로 변환하는 것을 의미양자화는 모델의 메모리 사용량을 줄이고,..

LLM 2024.08.25

LLM 입력 정리 및 Transformer 모델(Encoder-Decoder 구조)

LLM 입력 정리1. Role (역할)대화형 AI에서 "role"은 일반적으로 대화의 참여자 역할을 지정OpenAI의 ChatGPT와 같은 모델에서는 보통 두 가지 기본 역할이 있음user: 모델과 상호작용하는 사용자  # 사용자가 질문을 하거나 요청하는 역할assistant: AI 모델 자신  # 사용자의 요청에 응답하고 질문에 답변하는 역할2. Context (문맥)"context"는 이전 대화 내용을 포함하여 모델이 응답을 생성하는 데 필요한 정보를 제공대화형 AI에서 context는 사용자와 모델 간의 상호작용 기록으로 구성됨이 기록을 통해 모델은 대화의 흐름을 유지하고, 사용자에게 보다 연관성 있는 답변을 제공할 수 있음예를 들어, 여러 개의 대화 턴이 있다면, 각 턴이 context로서 다음 ..

LLM 2024.08.25

LLM 모델 평가 방법

LLM 모델 평가 방법(LLM 모델 평가와 LLM 시스템 평가가 있음/하기에는 LLM 모델 자체를 평가하는 방법 나열)1) Coding Tasks- HumanEval: LLM Benchmark for Code Generation코드 생성 작업에서 LLM 성능 측정을 위한 전형적 평가 도구 (파이썬 코드 작성 후 얼마나 잘 만들었는지 평가)구성 요소) 문제 설명/입력/출력/예제 제시해서 얼마나 정확한가, 얼마나 통과를 했는가구성 데이터셋 : HumanEval 데이터 (단위 테스트가 포함된 164개 프로그래밍 과제와 생성된 코드의 기능적 정확성 평가)- MBPP: Mostly Basic Python Programming자연어 설명에서 파이썬 프로그램을 합성하는 LLM 능력 측정974개 프로그램이 포함된 데이..

LLM 2024.08.25
728x90