vLLM 部署Qwen2.5 LLM & VLM 大模型
Qwen2.5-32B 和 Qwen2.5-VL-32B 是通义千问(Qwen)系列中的两个大模型,分别对应纯语言模型(LLM)和多模态视觉-语言模型(VLM)。Docker环境安装与配置 NVIDIA Container Toolk,下载大模型参考 Docker部署bge-m3/bge-reranker模型。
Qwen2.5-32B 和 Qwen2.5-VL-32B 是通义千问(Qwen)系列中的两个大模型,分别对应纯语言模型(LLM)和多模态视觉-语言模型(VLM)。Docker环境安装与配置 NVIDIA Container Toolk,下载大模型参考 Docker部署bge-m3/bge-reranker模型。
上一篇我们使用 Docker部署bge-m3/bge-reranker模型,由于测试环境GPU卡资源紧张,基于成本考虑,需要在同一张卡上运行多个模型。现在以 bge-m3/bge-reranker 模型为例,将两个模型部署在同一张英伟达 L20 GPU卡上。
这是最直接和稳定的方式:
# 启动 embe...Continue reading >>
确认前置条件
在开始之前,请确保系统已经安装了NVIDIA GPU驱动程序(NVIDIA 驱动≥535.86.10,支持 CUDA 12.2+),并且可以正常运行 nvidia-smi 命令。同时,Docker Engine(版本建议 Docker 24.0+)也需要被安装好。
安装 NVIDIA Contain...

A100是英伟达2020年发布的旗舰级数据中心GPU,基于Ampere架构,主要特性包括:
A100可广泛应用于高性能计算(HPC)和深度学习...
Continue reading >>在人工智能和深度学习领域,NVIDIA 凭借其强大的 GPU 产品线占据着举足轻重的地位。NVIDIA 拥有数十款功能各异的 GPU 产品,可用于部署和运行不同规模的机器学习模型,从边缘设备到大规模数据中心,几乎涵盖了所有应用场景。然而,NVIDIA GPU 的命名规则较为复杂,涉及架构代号(如 Ampere、Hopper)、性能等级(如 A100、A40)以及其他技术特征等多重维度,这使得用户在...
Continue reading >>