1773158714189006.jpeg

OpenClaw是个啥?

简单说:OpenClaw 是一个开源的个人 AI 助手平台,支持通过多种消息渠道与 AI 交互,让你能把 AI 代理(agent)连接到日常生活和工作流中,处理生活工作中的各种任务。

 OpenClaw 到底是个撒?

系统要求

项目要求Node.js≥ 22(通过 node --version 检查)操作系统macOS、Linux (Window超级...Continue reading >>

上一篇我们了解了 大模型GPU显存算力需求计算这次我们把CPU和内存的需求也一起纳入考量。在异构计算(CPU+GPU协同)和纯CPU推理日益普及的今天,了解这三者的需求对于在不同硬件上部署大模型至关重要。

一、三大资源的核心作用与估算原则

在估算之前,我们需要明确CPU、内存和GPU显存在模型推理中分别扮演什么角色:

  1. GPU显存:主要用于存储模型参数、KV Cache以及计算过程中的中间激活...

Continue reading >>

一、显存占用核心组成部分

大语言模型在GPU上运行时的显存占用主要包括以下几个部分:

1. 模型参数

在模型推理时首先需要存储模型本身的参数,其占用的显存计算公式为:参数量 x 参数精度。常用的参数精度有FP32(4字节)、FP16(2字节)、BF16 (2字节)。对于大语言模型,模型参数通常采用FP16BF16。因此,以参数精度为FP16,参数量为7B的模型为例,其所需显存为:7B × 2...

Continue reading >>

站在大语言模型外部看需要准备些什么样的训练数据,分什么阶段,怎样去训练大语言模型,把大语言模型看成一个黑盒。

LLM都是如何训练出来的呢?

GPT的训练分为以下3个阶段:

1、预训练Pretrain

2、监督微调SFT (Supervised Fine-Tuning)

3、基于反馈的强化学习RLHF(包含了Reward Model、PPO (Proximal Policy Optimization)

一、Pr...

Continue reading >>

上一篇我们使用 Docker部署bge-m3/bge-reranker模型,由于测试环境GPU卡资源紧张,基于成本考虑,需要在同一张卡上运行多个模型。现在以 bge-m3/bge-reranker 模型为例,将两个模型部署在同一张英伟达 L20 GPU卡上。

🎯 同时运行的方案

方案1:使用不同端口分别部署(推荐)

这是最直接和稳定的方式:

# 启动 embe...
Continue reading >>