李宏毅老师简介

李宏毅老师是台湾大学电机工程学系的教授,在机器学习和生成式AI领域的教学全球知名,尤其在华语社区拥有极高声誉。YouTube上的课程累计超过30万订阅,影响力横跨学界与业界。李老师的的教学风格以生动、幽默著称,擅长用“宝可梦 vs 数码宝贝”等通俗易懂的例子,将复杂的深度学习、Transformer等前沿技术讲得清晰透彻,被许多学习者誉为“AI领域最好的启蒙老师之一“。

个人网站:&n...

Continue reading >>

前面两篇文章主要介绍了大模型GPU资源需求计算及使用场景:大模型GPU显存算力需求计算大模型推理资源需求计算及使用场景示例

在常见并发推理场景中,显存需求会随着并发数的增加而显著增长,因为KV Cache是显存占用的主要变量。下面我们来系统性地介绍并发推理的显存计算方法,并通过7B、32B、70B三个模型的示例进行全面评估。

一、并发推理显存计算核心公式

1.1 总显存构成

总显存&nb...
Continue reading >>

1773158714189006.jpeg

OpenClaw是个啥?

简单说:OpenClaw 是一个开源的个人 AI 助手平台,支持通过多种消息渠道与 AI 交互,让你能把 AI 代理(agent)连接到日常生活和工作流中,处理生活工作中的各种任务。

 OpenClaw 到底是个撒?

系统要求

项目要求Node.js≥ 22(通过 node --version 检查)操作系统macOS、Linux (Window超级...Continue reading >>

上一篇我们了解了 大模型GPU显存算力需求计算这次我们把CPU和内存的需求也一起纳入考量。在异构计算(CPU+GPU协同)和纯CPU推理日益普及的今天,了解这三者的需求对于在不同硬件上部署大模型至关重要。

一、三大资源的核心作用与估算原则

在估算之前,我们需要明确CPU、内存和GPU显存在模型推理中分别扮演什么角色:

  1. GPU显存:主要用于存储模型参数、KV Cache以及计算过程中的中间激活...

Continue reading >>

一、显存占用核心组成部分

大语言模型在GPU上运行时的显存占用主要包括以下几个部分:

1. 模型参数

在模型推理时首先需要存储模型本身的参数,其占用的显存计算公式为:参数量 x 参数精度。常用的参数精度有FP32(4字节)、FP16(2字节)、BF16 (2字节)。对于大语言模型,模型参数通常采用FP16BF16。因此,以参数精度为FP16,参数量为7B的模型为例,其所需显存为:7B × 2...

Continue reading >>

nvidia-smi(NVIDIA System Management Interface)是NVIDIA官方提供的GPU管理工具,提供管理和监控 GPU 的接口。其核心功能包括NVIDIA GPU运行状况、工作负载、硬件状态诊断和资源调度管理。

核心功能

功能模块具体能力适用场景实时监控显存占用、温度、功耗、时钟频率深度学习训练过程监控进程管理查看/终止占用GPU的进程资源泄漏应急处理计算模式控制切...Continue reading >>