728x90
반응형

전체 글 65

Llama3

Llama3 관련 기초Llama3: Meta에서 만든 경량화 모Llama3 관련 기초 Llama3: Meta에서 만든 경량화 모델 Llama 3는 Meta에서 개발한 최신 대형 언어 모델(LLM)로, 다양한 작업을 처리할 수 있는 인공지능 모델입니다. 이 모델은 주로 자연어 처리, 텍스트 생성, 코드 작성, 이미지와 텍스트를 함께 처리하는 멀티모달 작업까지 지원하는 것이 특징입니다. Llama 3는 이전 버전인 Llama 2보다 7배 더 많은 데이터(15조 토큰)를 학습했으며, 이를 통해 더욱 정교한 언어 이해와 복잡한 문제 해결이 가능합니다​.Llama 3의 주요 개선 사항 중 하나는 어휘 확장입니다. 128,000개 이상의 토큰을 처리할 수 있어, 긴 대화나 문서에서도 맥락을 잘 유지할 수 있습니다...

카테고리 없음 2024.09.08

LLM과 생성형 AI, RAG, LangChain 등등

이 글은 sLM, LLM을 공부하면서 헷갈리는 내용들을 명확히 하기 위한 글이다. 1) LLM과 생성형 AILLM(Large Language Model)이 항상 생성형 AI(Generative AI)인 것은 아님.LLM의 특성과 활용 방식에 따라 생성형일 수도 있고, 그렇지 않을 수도 있음.LLM이 어떻게 사용되느냐에 따라 그 역할과 범주가 결정됨.- LLM과 생성형 AI의 관계LLM (Large Language Model)대형 언어 모델은 방대한 양의 텍스트 데이터를 학습하여 텍스트를 이해하고 생성하는 데 사용할 수 있는 모델이들은 주어진 입력에 대한 반응으로 텍스트를 예측하고 생성 (GPT-3, BERT, T5 등)생성형 AI (Generative AI)새로운 데이터를 생성하는 데 중점을 둔 AI의 ..

LLM 2024.08.31

LLM 모델 Postprocessing 및 fine-tuning

모델의 Post-processing(후처리)모델이 사전 훈련(pre-trained)되거나, 로드된 이후에 추가적으로 적용되는 조정이나 설정 단계모델의 기본 학습 단계와 구별되는 작업으로, 모델의 성능을 최적화하거나 특정 사용 사례에 맞게 조정하기 위한 추가 작업을 포함Postprocessing 과정8비트 양자화 후 일부 파라미터를 32비트로 캐스팅양자화(Quantization)연속적인 값을 가지는 데이터를 더 적은 비트 수를 사용하여 표현하기 위해 이산적인 값 집합으로 근사하는 과정머신러닝과 딥러닝에서는 주로 모델의 가중치나 활성화 값과 같은 부동 소수점 데이터(float32 또는 float16)를 더 낮은 정밀도의 정수형 데이터(int8 등)로 변환하는 것을 의미양자화는 모델의 메모리 사용량을 줄이고,..

LLM 2024.08.25

LLM 입력 정리 및 Transformer 모델(Encoder-Decoder 구조)

LLM 입력 정리1. Role (역할)대화형 AI에서 "role"은 일반적으로 대화의 참여자 역할을 지정OpenAI의 ChatGPT와 같은 모델에서는 보통 두 가지 기본 역할이 있음user: 모델과 상호작용하는 사용자  # 사용자가 질문을 하거나 요청하는 역할assistant: AI 모델 자신  # 사용자의 요청에 응답하고 질문에 답변하는 역할2. Context (문맥)"context"는 이전 대화 내용을 포함하여 모델이 응답을 생성하는 데 필요한 정보를 제공대화형 AI에서 context는 사용자와 모델 간의 상호작용 기록으로 구성됨이 기록을 통해 모델은 대화의 흐름을 유지하고, 사용자에게 보다 연관성 있는 답변을 제공할 수 있음예를 들어, 여러 개의 대화 턴이 있다면, 각 턴이 context로서 다음 ..

LLM 2024.08.25

LLM 모델 평가 방법

LLM 모델 평가 방법(LLM 모델 평가와 LLM 시스템 평가가 있음/하기에는 LLM 모델 자체를 평가하는 방법 나열)1) Coding Tasks- HumanEval: LLM Benchmark for Code Generation코드 생성 작업에서 LLM 성능 측정을 위한 전형적 평가 도구 (파이썬 코드 작성 후 얼마나 잘 만들었는지 평가)구성 요소) 문제 설명/입력/출력/예제 제시해서 얼마나 정확한가, 얼마나 통과를 했는가구성 데이터셋 : HumanEval 데이터 (단위 테스트가 포함된 164개 프로그래밍 과제와 생성된 코드의 기능적 정확성 평가)- MBPP: Mostly Basic Python Programming자연어 설명에서 파이썬 프로그램을 합성하는 LLM 능력 측정974개 프로그램이 포함된 데이..

LLM 2024.08.25

LLM/sLLM/sLM 정의 및 특징

LLM/sLLM/sLM- LLM/sLLM/sLM의 정의 및 특징- LLM(Large Language Model): 대규모언어모델LLM은 파라미터 수가 수천억~수조 개로 매우 많고 모델이 커서 기업에서 사용하기 어려움- sLLM(small Large Language Model): 경량거대언어모델LLM을 기업에서 사용할 수 있도록 sLLM 구현기존 LLM보다 빠르게 학습할 수 있도록 파라미터 수를 줄이고 학습 데이터 양을 줄여서 비용과 시간을 절감할 수 있도록 한 LLM보다 작은 규모의 대형 언어 모델- sLM(small Language Model): 소형언어모델파라미터 수가 적고 학습 데이터셋이 작거나 모델 구조가 단순단순 NLP 작업이나 제한된 도메인에서 주로 사용스마트 스피커, 셋탑 박스, 홈서비스 로..

LLM 2024.08.25

OpenAI Playground / MS Azure

네트워크 관련 용어 공부https://haram22.tistory.com/23 network 용어 정리server, client server 클라이언트에게 네트워크를 통해 정보나 서비스를 제공하는 컴퓨터 시스템으로 컴퓨터 프로그램 또는 장치를 의미한다. client 네트워크를 통해 서버라는 다른 컴퓨터 시스템 상haram22.tistory.com플랫폼 정리OpenAI Playground : AI 모델을 직접 테스트하고 실험하는 데 중점 주로 OpenAI의 언어 모델(GPT-3, GPT-4 등)을 직접 사용하여 텍스트 생성, 요약, 번역 등 다양한 자연어 처리 작업을 실험하고 테스트하는 플랫폼브라우저 기반의 사용자 인터페이스를 제공하여 손쉽게 접근하고 사용주로 연구자, 개발자들이 다양한 모델 설정 조정 (..

LLM 2024.08.24

[LLM/sLLM/sLM] Langchain 정의, 기능, 사용 방법

LangChain언어 모델을 활용해 다양한 어플리케이션을 개발할 수 있는 프레임워크, SDK (Software development kit)한 개 이상의 LLM 사이에 논리적으로 연결된 Chains를 생성할 수 있는 기능 제공LangChain을 사용하면 복잡한 데이터 처리, 다양한 모델 연동, 시스템 통합 등 더 체계적이고 유연한 솔루션을 제공 가능장기적으로 확장성과 유지보수 측면에서 유리 LangChain의 주요 기능모델 연동LangChain은 다양한 LLM(대형 언어 모델)과 쉽게 연동할 수 있도록 설계됨OpenAI, Hugging Face, Cohere 등 여러 모델 공급자의 API를 지원하여, 원하는 모델을 손쉽게 사용할 수 있음체계적인 파이프라인 구성LangChain은 복잡한 NLP 파이프라인을..

LLM 2024.08.24

sLM 구축을 위한 기반 기술 (Huggingface/Ollama/Langchain)

sLM 구축은 모델 선정/튜닝/데이터수집 정제 등 복잡한 절차 필요 --> 기반 기술을 토대로 쉽게 구축 가능!1) HuggingfaceAI 모델(머신러닝/딥러닝)과 데이터 셋, 평가를 위한 다양한 라이브러리와 허브를 제공 오픈소스 플랫폼인공지능 모델을 위한 깃허브- Transformer LibraryTransformer는 사전학습된 최첨단 모델들을 쉽게 다운로드하고 훈련할 수 있는 API, ehrn wprhd자연어 처리, 컴퓨터 비전, 오디오, 멀티모달(표, 문서, 비디오 등) 지원- Huggigface HubML 워크플로우에서 쉽게 협업 가능한 모델, 데이터셋, 데모를 지원버전 관리, 커밋 기록, 분기 등 12개 이상의 라이브러리를 통합적 제공- API Token 발급LLM 학습을 위해서는 PDF 문..

LLM 2024.08.18

[AI/머신러닝/딥러닝/llm] 파이프라인(pipeline)

파이프라인(Pipeline)이란?데이터 처리 및 모델 학습의 여러 단계를 체계적으로 연결하여 일관된 흐름으로 수행할 수 있도록 도와주는 도구데이터 전처리, 모델 훈련, 예측 및 평가를 효율적으로 관리 가능sklearn 라이브러리에서 전처리(pre-processing)용 모듈과 모델의 학습 기능을 파이프라인으로 합칠 수 있음파이프라인으로 결합된 모형은 원래의 모형이 가지는 fit, predict 함수를 가짐파이프라인에 정의된 순서에 따라 전처리 모듈이 먼저 호출되어 전처리 과정을 거친 후 모델이 학습파이프라인(Pipeline)을 사용하는 이유1) 일관성 유지 모든 데이터 처리와 모델링 작업이 순차적으로 일관되게 적용되어 오류를 줄일 수 있음2) 재사용성데이터 전처리와 모델링 과정을 모듈화하여 코드의 재사용..

LLM 2024.08.17
728x90
반응형