常用AI模型介绍及TEI模型推理框架
bge-m3模型是一种先进的文本嵌入模型,能够将文本转换为高维向量,从而实现高效的文本相似度计算、分类等任务。
bge-reranker-v2-m3是一个轻量级的重排序模型,具有强大的多语言能力,易于部署,推理速度快。
TEI(全称:Text Embeddings Inference)是由Huggingface推出的高性能推理框架,旨在简化和加速文本嵌入(Embedding)和重排序(Reranker) 模型在生产环境中的部署。TEI支持基于HTTP和gRPC协议的服务接口,能够高效处理文本嵌入的生成和基于文本相关性的重排序等任务;TEI框架同时也支持多种嵌入模型和重排序模型,并提供了灵活的请求批处理、模型管理和动态调度功能。通过TEI,开发者可以轻松地扩展和优化文本嵌入和重排序服务,以满足实时应用和批量处理的需求,特别适用于自然语言处理相关的在线推理任务,能够满足RAG(全称:Retrieval-Augmented Generation)、信息检索 (IR)、自然语言理解 (NLU)、文本分类以及个性化推荐系统等下游应用场景。
简单来说,BGE系列是处理文本的"专家",而LLM和VLM是内容"生成者",TEI和vLLM则是让这些模型高效运行的"发动机"。下面这个表格可以让我们快速了解它们各自的特点和角色。
| 模型/框架名称 | 核心功能与特点 | 开发者/来源 | 典型应用场景 |
|---|---|---|---|
| BGE-M3 | 文本嵌入模型:将文本转换为向量。支持密集检索、多向量检索和稀疏检索。多语言(100+),处理长文档(最长8192 token)。 | BAAI | 文本相似度计算、语义搜索、作为RAG系统的检索器。 |
| BGE-Reranker-v2-M3 | 重排序模型:对检索结果进行精排。基于BGE-M3,具备强大跨语言能力,模型轻量,推理速度快。 | BAAI | 在RAG、搜索引擎中优化检索结果,提升Top结果的相关性。 |
| Text Embeddings Inference (TEI) | 嵌入模型推理框架:专为部署文本嵌入和重排序模型设计的高性能框架。支持HTTP/gRPC协议。 | Hugging Face | 用于生产环境,高并发、低延迟地提供嵌入向量生成和重排序服务。 |
| Large Language Model (LLM) | 大语言模型:理解和生成人类语言。参数规模巨大,能力广泛(文本生成、翻译、总结等)。 | OpenAI等多家机构 | 作为RAG系统、对话机器人的生成核心,进行内容创作、问答等。 |
| vLLM | LLM推理和服务框架:核心是PagedAttention技术,实现高吞吐量的LLM推理。兼容OpenAI API。 | UC Berkeley | 用于生产环境,高效、低成本地部署和服务各类LLM。 |
| Vision Language Model (VLM) | 视觉语言模型:多模态模型,能同时处理图像、视频和文本信息,并生成文本响应。 | NVIDIA等多家机构 | 视觉问答、图像/视频内容理解与总结、多模态对话。 |
将 Text Embeddings Inference (TEI) 和 vLLM 组合使用,是构建高性能生产级 AI 应用的一个非常出色的方案。简单来说,这个组合的核心思想是 「让专业的工具做专业的事」:TEI 负责「理解」语义并进行检索,vLLM 负责「生成」高质量的文本。下面这个表格清晰地展示了两者在典型工作流(如RAG)中的核心分工与合作。
| 阶段 | 核心任务 | 推荐引擎 | 引擎优势 |
|---|---|---|---|
| 检索阶段 | 文本向量化、语义检索、结果重排序 | Text Embeddings Inference (TEI) | 为嵌入和重排序模型量身定制,高并发、低延迟 。 |
| 生成阶段 | 基于检索到的上下文,生成流畅、准确的答案 | vLLM | 专精于文本生成,通过 PagedAttention 等技术实现高吞吐和低延迟的推理 。 |
通用使用场景与组合策略
这些模型和工具在实际项目中,尤其是在构建复杂的AI应用时,常常协同工作。一个典型的例子是检索增强生成(RAG)系统,它能够结合外部知识库,让LLM生成更准确、信息更丰富的答案。
RAG Pipeline
如上图所示,检索排序模型是信息检索及RAG pipeline中的重要组成部分。与向量模型与稀疏检索模型相比,检索排序模型会利用更加复杂的判定函数以获得更加精细的相关关系。通常,系统会首先借助向量模型(BGE-M3-Dense)与稀疏检索模型(BGE-M3-Sparse)分别从向量数据库与倒排索引中初步获取粗粒度的候选文档(coarse-grained candidates)。紧接着,系统会进一步利用排序模型(BGE Re-Ranker)进一步过滤候选集,并最终获得精细的文档集(fine-grained candidates),以支持下游大语言模型完成检索增强任务(RAG)。
下图直观展示了一个增强型RAG系统的工作流程,其中也包含了引入视觉信息的可能性:
在这个流程中:
检索(Retrieval):BGE-M3 模型为文档库生成嵌入向量并建立索引。当用户提问时,用它进行初步的语义检索,找出相关文档。如果问题涉及图像(例如“找出所有与图片描述相似的文档”),则可以先用VLM理解图像内容,生成描述文本,再将此文本交给BGE-M3进行检索。
精排(Reranking):初步检索可能返回大量结果,使用 BGE-reranker-v2-m3 对结果进行重新评分和排序,筛选出最相关的几条,从而提升最终答案的质量。
生成(Generation):将精排后的文档和用户问题一起构成提示词(Prompt),提交给由 vLLM 引擎服务的高性能 LLM,生成最终准确且丰富的答案。
在整个过程中,TEI 框架可以负责高效、稳定地部署和运行 BGE-M3 和 BGE-reranker 模型,确保检索和精排服务的性能与延迟满足要求。
参考:

