LLM) Quantization 방법론 알아보기 (GPTQ | QAT | AWQ | GGUF | GGML | PTQ)
양자화 기술은 모델을 압축하여 빠르고 효율적으로 만드는 기술입니다. 모델의 가중치와 활성화 값을 줄여 메모리를 절약하고 연산 속도를 높입니다. 이 글은 여러 양자화 기술을 단계별로 설명하고, 코드를 제공하여 사용자가 직접 모델 압축을 수행할 수 있도록 합니다. 이를 통해 머신 러닝 모델을 최적화하고 더 효율적으로 활용할 수 있습니다. 크게 요즘 많이 나오는 방법론은 다음과 같습니다QuantizationGPTQGGUF/GGMLQATAWQPTQ (Post-training Quantization) - 훈련 후 양자화GPTQGGUF/GGML QLORA’s 4 bits QAT (Quantization-Aware Training) - 훈련하면서 양자화 TensorflowPytorchHuggingface AWQQA..
2024.04.29