标签：大模型

vLLM集成Ray分布式推理模型部署实战

2026年5月5日 by anzhihe·0评论 · 1,843 人阅读

从单机到多节点分布式推理部署，架构上最大的变化是从"单机多卡"的内部通信变成了"跨节点"的网络通信。核心在于如何配置分布式节点和并行策略。

核心架构变化：从TP到PP+TP

在单机多卡部署时，我们主要使用张量并行（Tensor Parallelism，TP），它在单节点内通过高速总线（如NVLink）拆分模型权重，通信开销极低。

但在多节点场景下，跨节...

Continue reading >>

大模型并发场景GPU显存资源计算

2026年3月20日 by anzhihe·0评论 · 1,816 人阅读

前面两篇文章主要介绍了大模型GPU资源需求计算及使用场景：大模型GPU显存算力需求计算 | 大模型推理资源需求计算及使用场景示例。

在常见并发推理场景中，显存需求会随着并发数的增加而显著增长，因为KV Cache是显存占用的主要变量。下面我们来系统性地介绍并发推理的显存计算方法，并通过7B、32B、70B三个模型的示例进行全面评估。

一、并发推理显存计算核心公式

1.1 总显存构成

总显存&nb...

Continue reading >>

macOS安装龙虾OpenClaw

2026年3月11日 by anzhihe·2条评论 · 3,221 人阅读 · 最后更新: 2026/4/19

OpenClaw是个啥？

简单说：OpenClaw 是一个开源的个人 AI 助手平台，支持通过多种消息渠道与 AI 交互，让你能把 AI 代理（agent）连接到日常生活和工作流中，处理生活工作中的各种任务。

OpenClaw 到底是个撒？

系统要求

项目要求Node.js≥ 22（通过 node --version 检查）操作系统macOS、Linux (Window超级...Continue reading >>

大模型推理资源需求计算及使用场景示例

2026年3月10日 by anzhihe·0评论 · 1,990 人阅读 · 最后更新: 2026/3/11

上一篇我们了解了大模型GPU显存算力需求计算，这次我们把CPU和内存的需求也一起纳入考量。在异构计算（CPU+GPU协同）和纯CPU推理日益普及的今天，了解这三者的需求对于在不同硬件上部署大模型至关重要。

一、三大资源的核心作用与估算原则

在估算之前，我们需要明确CPU、内存和GPU显存在模型推理中分别扮演什么角色：

GPU显存：主要用于存储模型参数、KV Cache以及计算过程中的中间激活...

Continue reading >>

大模型GPU显存算力需求计算

2026年3月3日 by anzhihe·0评论 · 2,615 人阅读

一、显存占用核心组成部分

大语言模型在GPU上运行时的显存占用主要包括以下几个部分：

1. 模型参数

在模型推理时首先需要存储模型本身的参数，其占用的显存计算公式为：参数量 x 参数精度。常用的参数精度有FP32（4字节）、FP16（2字节）、BF16 （2字节）。对于大语言模型，模型参数通常采用FP16或BF16。因此，以参数精度为FP16，参数量为7B的模型为例，其所需显存为：7B × 2...

Continue reading >>

用通俗的方式介绍大语言模型训练过程

2026年1月18日 by anzhihe·0评论 · 1,929 人阅读

站在大语言模型外部看需要准备些什么样的训练数据，分什么阶段，怎样去训练大语言模型，把大语言模型看成一个黑盒。

LLM都是如何训练出来的呢？

GPT的训练分为以下3个阶段：

1、预训练Pretrain

2、监督微调SFT (Supervised Fine-Tuning)

3、基于反馈的强化学习RLHF（包含了Reward Model、PPO (Proximal Policy Optimization)

一、Pr...

Continue reading >>