主流 LLM 部署框架
框架 | 主要特点 | 适用场景 |
---|---|---|
vLLM | - 超快推理(高吞吐) - 动态批处理 - 支持 HuggingFace Transformer - 支持 PagedAttention | 高并发、低延迟在线推理 |
TGI (Text Generation Inference) | - Huggingface官方出品 - 多模型管理 - 支持动态量化 - 支持 Flash Attention | 生产环境大规模推理 |
Triton Inference Server | - NVIDIA出品 - 支持多种框架(PyTorch、TensorFlow、ONNX) - 多模型管理和自动Batching | 通用模型部署、高性能 |
DeepSpeed-MII | - 微调和推理一体化 - 支持数千亿参数推理(ZeRO-Inference) - DeepSpeed集成 | 超大模型推理优化 |
FasterTransformer | - NVIDIA高性能库 - 纯推理加速(TensorRT级别) - 专为巨型模型而生 | 极限推理加速场景 |
Turbomind (By Alibaba) | - 阿里自研,兼容 Huggingface - 极致多卡推理 - FP16/BF16混合精度 | 大模型国产部署 |
vLLM+OpenAI API兼容 | - 通过OpenAI接口暴露 - 低成本私有部署 | 搭建内部API服务 |
搭建内部 API 服务的区别
不同框架提供的API服务有不同的实现和调优方式,下面列出不同框架搭建内部API服务的特点:
框架 | 内部 API 服务搭建特点 |
---|---|
vLLM | - 快速响应:vLLM专注于超高吞吐量和低延迟,非常适合需要响应速度快的在线推理任务。 - 动态批处理:能够根据请求的大小动态调整批处理大小,进一步提升吞吐量。 - 适用场景:多用于高并发的API服务场景。 |
TGI (Text Generation Inference) | - 多模型管理:支持同时管理多个模型,可以根据业务需求灵活切换模型。 - Flash Attention支持:提供高效的注意力机制,适用于需要高性能推理的服务。 - 适用场景:生产环境中大规模的推理服务,尤其适用于处理大量请求的场景。 |
Triton Inference Server | - 多框架支持:支持PyTorch、TensorFlow、ONNX等多种框架,能够与不同类型的模型兼容。 - 自动Batching:能够自动进行批处理,优化吞吐量。 - 适用场景:适用于各种类型的API服务,无论是单个模型还是多个模型同时服务。 |
DeepSpeed-MII | - 微调和推理一体化:能够同时进行微调和推理,适合需要根据用户反馈优化模型的场景。 - ZeRO-Inference:通过分布式优化,大幅降低对内存的需求,适合超大模型的推理。 - 适用场景:超大模型推理服务,尤其在云环境和大型计算集群中部署。 |
FasterTransformer | - TensorRT加速:支持使用TensorRT等推理加速工具,极大提升推理速度。 - 适用场景:对推理性能要求极高的应用,特别是推理任务对延迟要求严格的场景。 |
Turbomind (By Alibaba) | - 极致多卡支持:专为多卡部署优化,能够最大化硬件资源的利用率,适合大规模的推理任务。 - FP16/BF16混合精度:通过混合精度优化,提升推理性能并降低计算需求。 - 适用场景:大模型推理和国产化部署。 |
vLLM+OpenAI API兼容 | - 低成本私有部署:提供类似OpenAI API的接口,能够以较低的成本实现大模型的私有部署。 - 适用场景:公司内部API服务,适用于需要私有化的开发环境。 |
总结:
-
vLLM 和 TGI 更适合于 在线推理 和 高并发请求的场景,因为它们的 低延迟 和 高吞吐量 设计。
-
Triton Inference Server 是一个多框架支持的通用推理框架,适合需要兼容多种框架和处理多模型的场景。
-
DeepSpeed-MII 更适合于 超大模型推理 和 微调 场景,尤其是需要优化内存和推理性能的环境。
-
FasterTransformer 是专为高效推理而生,特别适合对延迟要求非常严格的任务。
-
Turbomind 在 大模型部署 和 多卡支持 方面非常强大,特别适用于国产化场景。
-
vLLM+OpenAI API兼容 提供了类似 OpenAI 接口的私有部署服务,适合有低成本部署需求的场景。
选择框架时的考虑:
-
硬件资源:如果有多个 GPU 或者强大的硬件,DeepSpeed-MII 和 Turbomind 能发挥更大作用。
-
推理性能:FasterTransformer 和 Triton 是极限推理加速场景的优选。
-
应用规模和并发:vLLM 和 TGI 非常适合高并发的在线推理任务。