上一篇我们使用 Docker部署bge-m3/bge-reranker模型,由于测试环境GPU卡资源紧张,基于成本考虑,需要在同一张卡上运行多个模型。现在以 bge-m3/bge-reranker 模型为例,将两个模型部署在同一张英伟达 L20 GPU卡上。

🎯 同时运行的方案

方案1:使用不同端口分别部署(推荐)

这是最直接和稳定的方式:

# 启动 embe...
Continue reading >>

安装与配置 NVIDIA Container Toolkit

  1. 确认前置条件
    在开始之前,请确保系统已经安装了NVIDIA GPU驱动程序(NVIDIA 驱动≥535.86.10,支持 CUDA 12.2+),并且可以正常运行 nvidia-smi 命令。同时,Docker Engine(版本建议 Docker 24.0+)也需要被安装好。

  2. 安装 NVIDIA Contain...

Continue reading >>

1764187836142706.png

1. A100:数据中心AI计算的奠基石

A100是英伟达2020年发布的旗舰级数据中心GPU,基于Ampere架构,主要特性包括:

  • 架构:Ampere
  • CUDA核心数:6912
  • Tensor核心:432
  • 显存:40GB/80GB HBM2e
  • 带宽:1.6TB/s
  • NVLink支持:可连接多个GPU以扩展算力
  • 应用场景:深度学习训练、推理、科学计算、大规模数据分析

A100可广泛应用于高性能计算(HPC)和深度学习...

Continue reading >>

常用AI模型介绍及TEI模型推理框架

bge-m3模型是一种先进的文本嵌入模型,能够将文本转换为高维向量,从而实现高效的文本相似度计算、分类等任务。

bge-reranker-v2-m3是一个轻量级的重排序模型,具有强大的多语言能力,易于部署,推理速度快。

TEI(全称:Text Embeddings Inference)是由Huggingface推出的高性能推理框架,旨在简化和加速文本嵌入(Embed...

Continue reading >>

模型参数量的基本概念

我们通常用参数数量来衡量模型的规模。参数是模型在训练过程中学习的变量,这些变量用于根据输入数据做出预测或生成输出。参数数量通常以B(Billion,十亿)为单位。"B"代表"Billion"(十亿),比如常见的大语言模型级别规模:

  • 7B = 70亿参数

  • 32B = 320亿参数

  • 70B = 700亿参数

  • 910B = 9100亿参数

"参...

Continue reading >>