大模型 | CHEGVA

在模型推理时首先需要存储模型本身的参数，其占用的显存计算公式为：参数量 x 参数精度。常用的参数精度有FP32（4字节）、FP16（2字节）、BF16 （2字节）。对于大语言模型，模型参数通常采用FP16或BF16。因此，以参数精度为FP16，参数量为7B的模型为例，其所需显存为：7B × 2...

用通俗的方式介绍大语言模型训练过程

2026年1月18日 by anzhihe·0评论 · 1,036 人阅读

站在大语言模型外部看需要准备些什么样的训练数据，分什么阶段，怎样去训练大语言模型，把大语言模型看成一个黑盒。

LLM都是如何训练出来的呢？

GPT的训练分为以下3个阶段：

1、预训练Pretrain

2、监督微调SFT (Supervised Fine-Tuning)

3、基于反馈的强化学习RLHF（包含了Reward Model、PPO (Proximal Policy Optimization)

一、Pr...

vLLM 部署Qwen2.5 LLM & VLM 大模型

2026年1月5日 by anzhihe·0评论 · 1,383 人阅读

Qwen2.5-32B 和 Qwen2.5-VL-32B 是通义千问（Qwen）系列中的两个大模型，分别对应纯语言模型（LLM）和多模态视觉-语言模型（VLM）。Docker环境安装与配置 NVIDIA Container Toolk，下载大模型参考 Docker部署bge-m3/bge-reranker模型。

模型简介

模型名称类型参数量特点Qwen2.5-32B纯文本...Continue reading >>

多个模型复用同一张GPU卡方案

2025年12月26日 by anzhihe·0评论 · 870 人阅读

上一篇我们使用 Docker部署bge-m3/bge-reranker模型，由于测试环境GPU卡资源紧张，基于成本考虑，需要在同一张卡上运行多个模型。现在以 bge-m3/bge-reranker 模型为例，将两个模型部署在同一张英伟达 L20 GPU卡上。

🎯 同时运行的方案

方案1：使用不同端口分别部署（推荐）

这是最直接和稳定的方式：

# 启动 embe...