728x90
반응형

2024/08/25 4

LLM 모델 Postprocessing 및 fine-tuning

모델의 Post-processing(후처리)모델이 사전 훈련(pre-trained)되거나, 로드된 이후에 추가적으로 적용되는 조정이나 설정 단계모델의 기본 학습 단계와 구별되는 작업으로, 모델의 성능을 최적화하거나 특정 사용 사례에 맞게 조정하기 위한 추가 작업을 포함Postprocessing 과정8비트 양자화 후 일부 파라미터를 32비트로 캐스팅양자화(Quantization)연속적인 값을 가지는 데이터를 더 적은 비트 수를 사용하여 표현하기 위해 이산적인 값 집합으로 근사하는 과정머신러닝과 딥러닝에서는 주로 모델의 가중치나 활성화 값과 같은 부동 소수점 데이터(float32 또는 float16)를 더 낮은 정밀도의 정수형 데이터(int8 등)로 변환하는 것을 의미양자화는 모델의 메모리 사용량을 줄이고,..

LLM 2024.08.25

LLM 입력 정리 및 Transformer 모델(Encoder-Decoder 구조)

LLM 입력 정리1. Role (역할)대화형 AI에서 "role"은 일반적으로 대화의 참여자 역할을 지정OpenAI의 ChatGPT와 같은 모델에서는 보통 두 가지 기본 역할이 있음user: 모델과 상호작용하는 사용자  # 사용자가 질문을 하거나 요청하는 역할assistant: AI 모델 자신  # 사용자의 요청에 응답하고 질문에 답변하는 역할2. Context (문맥)"context"는 이전 대화 내용을 포함하여 모델이 응답을 생성하는 데 필요한 정보를 제공대화형 AI에서 context는 사용자와 모델 간의 상호작용 기록으로 구성됨이 기록을 통해 모델은 대화의 흐름을 유지하고, 사용자에게 보다 연관성 있는 답변을 제공할 수 있음예를 들어, 여러 개의 대화 턴이 있다면, 각 턴이 context로서 다음 ..

LLM 2024.08.25

LLM 모델 평가 방법

LLM 모델 평가 방법(LLM 모델 평가와 LLM 시스템 평가가 있음/하기에는 LLM 모델 자체를 평가하는 방법 나열)1) Coding Tasks- HumanEval: LLM Benchmark for Code Generation코드 생성 작업에서 LLM 성능 측정을 위한 전형적 평가 도구 (파이썬 코드 작성 후 얼마나 잘 만들었는지 평가)구성 요소) 문제 설명/입력/출력/예제 제시해서 얼마나 정확한가, 얼마나 통과를 했는가구성 데이터셋 : HumanEval 데이터 (단위 테스트가 포함된 164개 프로그래밍 과제와 생성된 코드의 기능적 정확성 평가)- MBPP: Mostly Basic Python Programming자연어 설명에서 파이썬 프로그램을 합성하는 LLM 능력 측정974개 프로그램이 포함된 데이..

LLM 2024.08.25

LLM/sLLM/sLM 정의 및 특징

LLM/sLLM/sLM- LLM/sLLM/sLM의 정의 및 특징- LLM(Large Language Model): 대규모언어모델LLM은 파라미터 수가 수천억~수조 개로 매우 많고 모델이 커서 기업에서 사용하기 어려움- sLLM(small Large Language Model): 경량거대언어모델LLM을 기업에서 사용할 수 있도록 sLLM 구현기존 LLM보다 빠르게 학습할 수 있도록 파라미터 수를 줄이고 학습 데이터 양을 줄여서 비용과 시간을 절감할 수 있도록 한 LLM보다 작은 규모의 대형 언어 모델- sLM(small Language Model): 소형언어모델파라미터 수가 적고 학습 데이터셋이 작거나 모델 구조가 단순단순 NLP 작업이나 제한된 도메인에서 주로 사용스마트 스피커, 셋탑 박스, 홈서비스 로..

LLM 2024.08.25
728x90
반응형