NVIDIA | CHEGVA

标签：NVIDIA

大模型推理资源需求计算及使用场景示例

2026年3月10日 by anzhihe·0评论 · 171 人阅读 · 最后更新: 2026/3/11

上一篇我们了解了大模型GPU显存算力需求计算，这次我们把CPU和内存的需求也一起纳入考量。在异构计算（CPU+GPU协同）和纯CPU推理日益普及的今天，了解这三者的需求对于在不同硬件上部署大模型至关重要。

一、三大资源的核心作用与估算原则

在估算之前，我们需要明确CPU、内存和GPU显存在模型推理中分别扮演什么角色：

GPU显存：主要用于存储模型参数、KV Cache以及计算过程中的中间激活...

大模型GPU显存算力需求计算

2026年3月3日 by anzhihe·0评论 · 704 人阅读

一、显存占用核心组成部分

大语言模型在GPU上运行时的显存占用主要包括以下几个部分：

1. 模型参数

在模型推理时首先需要存储模型本身的参数，其占用的显存计算公式为：参数量 x 参数精度。常用的参数精度有FP32（4字节）、FP16（2字节）、BF16 （2字节）。对于大语言模型，模型参数通常采用FP16或BF16。因此，以参数精度为FP16，参数量为7B的模型为例，其所需显存为：7B × 2...

nvidia-smi工具详解及使用示例

2026年2月11日 by anzhihe·0评论 · 910 人阅读

nvidia-smi（NVIDIA System Management Interface）是NVIDIA官方提供的GPU管理工具，提供管理和监控 GPU 的接口。其核心功能包括NVIDIA GPU运行状况、工作负载、硬件状态诊断和资源调度管理。

核心功能

功能模块具体能力适用场景实时监控显存占用、温度、功耗、时钟频率深度学习训练过程监控进程管理查看/终止占用GPU的进程资源泄漏应急处理计算模式控制切...Continue reading >>

vLLM 部署Qwen2.5 LLM & VLM 大模型

2026年1月5日 by anzhihe·0评论 · 1,338 人阅读

Qwen2.5-32B 和 Qwen2.5-VL-32B 是通义千问（Qwen）系列中的两个大模型，分别对应纯语言模型（LLM）和多模态视觉-语言模型（VLM）。Docker环境安装与配置 NVIDIA Container Toolk，下载大模型参考 Docker部署bge-m3/bge-reranker模型。

模型简介

模型名称类型参数量特点Qwen2.5-32B纯文本...Continue reading >>

多个模型复用同一张GPU卡方案

2025年12月26日 by anzhihe·0评论 · 851 人阅读

上一篇我们使用 Docker部署bge-m3/bge-reranker模型，由于测试环境GPU卡资源紧张，基于成本考虑，需要在同一张卡上运行多个模型。现在以 bge-m3/bge-reranker 模型为例，将两个模型部署在同一张英伟达 L20 GPU卡上。

🎯 同时运行的方案

方案1：使用不同端口分别部署（推荐）

这是最直接和稳定的方式：

# 启动 embe...

Docker部署bge-m3/bge-reranker模型

2025年12月22日 by anzhihe·0评论 · 1,277 人阅读 · 最后更新: 2026/3/5

安装与配置 NVIDIA Container Toolkit

确认前置条件
在开始之前，请确保系统已经安装了NVIDIA GPU驱动程序（NVIDIA 驱动≥535.86.10，支持 CUDA 12.2+），并且可以正常运行 nvidia-smi 命令。同时，Docker Engine（版本建议 Docker 24.0+）也需要被安装好。
安装 NVIDIA Contain...