从单机到多节点分布式推理部署,架构上最大的变化是从"单机多卡"的内部通信变成了"跨节点"的网络通信。核心在于如何配置分布式节点和并行策略。

核心架构变化:从TP到PP+TP

在单机多卡部署时,我们主要使用 张量并行(Tensor Parallelism,TP),它在单节点内通过高速总线(如NVLink)拆分模型权重,通信开销极低。

但在多节点场景下,跨节...

Continue reading >>

这三个参数都用于控制大模型输出的随机性多样性,是调整模型行为最重要的超参数,但机制不同。简单理解:

  • Temperature(温度):控制概率分布的“陡峭”程度,影响整体随机性。

  • Top-p(也称核采样):限制候选词的累积概率范围,动态过滤掉极不可能的选项

  • Top-k:截断采样策略,用于控制模型生成 token 时的候选词范围


Temperature(温度)

作用:控制输出分布的"尖锐度&quot...

Continue reading >>

1776608567349242.png

Hermes Agent是个啥?

Hermes Agent 是 Nous Research(Hermes 模型背后的团队)开发的自改进(self-improving)AI Agent,核心创新在于内置学习闭环(closed learning loop)

  • 持久多层记忆:使用 SQLite + FTS5 全文搜索 + LLM 自动总结,跨会话永久记住你的偏好、风格和历史,不会“健忘”。

  • 自动技能进化:任务...

Continue reading >>

李宏毅老师简介

李宏毅老师是台湾大学电机工程学系的教授,在机器学习和生成式AI领域的教学全球知名,尤其在华语社区拥有极高声誉。YouTube上的课程累计超过30万订阅,影响力横跨学界与业界。李老师的的教学风格以生动、幽默著称,擅长用“宝可梦 vs 数码宝贝”等通俗易懂的例子,将复杂的深度学习、Transformer等前沿技术讲得清晰透彻,被许多学习者誉为“AI领域最好的启蒙老师之一“。

个人网站:&n...

Continue reading >>

前面两篇文章主要介绍了大模型GPU资源需求计算及使用场景:大模型GPU显存算力需求计算大模型推理资源需求计算及使用场景示例

在常见并发推理场景中,显存需求会随着并发数的增加而显著增长,因为KV Cache是显存占用的主要变量。下面我们来系统性地介绍并发推理的显存计算方法,并通过7B、32B、70B三个模型的示例进行全面评估。

一、并发推理显存计算核心公式

1.1 总显存构成

总显存&nb...
Continue reading >>

1773158714189006.jpeg

OpenClaw是个啥?

简单说:OpenClaw 是一个开源的个人 AI 助手平台,支持通过多种消息渠道与 AI 交互,让你能把 AI 代理(agent)连接到日常生活和工作流中,处理生活工作中的各种任务。

 OpenClaw 到底是个撒?

系统要求

项目要求Node.js≥ 22(通过 node --version 检查)操作系统macOS、Linux (Window超级...Continue reading >>