LLM) HuggingFace 모델 다운로드부터 gguf 및 quantization 수행 후 vLLM 서빙하는 순서 정리해보기 (테스트 필요)
qwen2.5-72b를 vllm에 올리는 테스트를 해보는 중에, ollama로 올린 것이 vllm으로 올린 것보다 더 빠른 것을 경험했습니다.vllm에 올린 모델은 허깅페이스에 올라온 모델을 기반으로 테스트했습니다.1. Qwen/Qwen2.5-72B-Instruct-AWQ2. Qwen/Qwen2.5-72B-Instruct-GPTQ-Int8 ollama 역시 양자화된 것인데Q4_K_M으로 양자화된 모델(gguf)임을 알 수 있습니다. 개인적으로 서빙을 할 때 당연히 ollama가 vllm 보다 느릴 줄 알았는데, vllm이 더 느린 것을 보고, 공식적으로 지원하지 않는 모델 같은 경우 느릴 수도 있겠다는 생각이 들었습니다.https://docs.vllm.ai/en/latest/models/supported..
2024.11.16