vLLM集成Ray分布式推理模型部署实战
从单机到多节点分布式推理部署,架构上最大的变化是从"单机多卡"的内部通信变成了"跨节点"的网络通信。核心在于如何配置分布式节点和并行策略。
核心架构变化:从TP到PP+TP
在单机多卡部署时,我们主要使用 张量并行(Tensor Parallelism,TP),它在单节点内通过高速总线(如NVLink)拆分模型权重,通信开销极低。
但在多节点场景下,跨节...
Continue reading >>从单机到多节点分布式推理部署,架构上最大的变化是从"单机多卡"的内部通信变成了"跨节点"的网络通信。核心在于如何配置分布式节点和并行策略。
核心架构变化:从TP到PP+TP
在单机多卡部署时,我们主要使用 张量并行(Tensor Parallelism,TP),它在单节点内通过高速总线(如NVLink)拆分模型权重,通信开销极低。
但在多节点场景下,跨节...
Continue reading >>前面两篇文章主要介绍了大模型GPU资源需求计算及使用场景:大模型GPU显存算力需求计算 | 大模型推理资源需求计算及使用场景示例。
在常见并发推理场景中,显存需求会随着并发数的增加而显著增长,因为KV Cache是显存占用的主要变量。下面我们来系统性地介绍并发推理的显存计算方法,并通过7B、32B、70B三个模型的示例进行全面评估。
总显存&nb...Continue reading >>

OpenClaw是个啥?
简单说:OpenClaw 是一个开源的个人 AI 助手平台,支持通过多种消息渠道与 AI 交互,让你能把 AI 代理(agent)连接到日常生活和工作流中,处理生活工作中的各种任务。
系统要求
项目要求Node.js≥ 22(通过 node --version 检查)操作系统macOS、Linux (Window超级...Continue reading >>上一篇我们了解了 大模型GPU显存算力需求计算,这次我们把CPU和内存的需求也一起纳入考量。在异构计算(CPU+GPU协同)和纯CPU推理日益普及的今天,了解这三者的需求对于在不同硬件上部署大模型至关重要。
在估算之前,我们需要明确CPU、内存和GPU显存在模型推理中分别扮演什么角色:
GPU显存:主要用于存储模型参数、KV Cache以及计算过程中的中间激活...
大语言模型在GPU上运行时的显存占用主要包括以下几个部分:
在模型推理时首先需要存储模型本身的参数,其占用的显存计算公式为:参数量 x 参数精度。常用的参数精度有FP32(4字节)、FP16(2字节)、BF16 (2字节)。对于大语言模型,模型参数通常采用FP16或BF16。因此,以参数精度为FP16,参数量为7B的模型为例,其所需显存为:7B × 2...
Continue reading >>站在大语言模型外部看需要准备些什么样的训练数据,分什么阶段,怎样去训练大语言模型,把大语言模型看成一个黑盒。
LLM都是如何训练出来的呢?
GPT的训练分为以下3个阶段:
1、预训练Pretrain
2、监督微调SFT (Supervised Fine-Tuning)
3、基于反馈的强化学习RLHF(包含了Reward Model、PPO (Proximal Policy Optimization)