项目简介
HP-deploy是一个基于Python的高性能模型部署平台,旨在提供优秀的模型部署解决方案。它建立在多种高性能开源推理框架之上,支持多模型实例、多推理框架、多云环境、自动扩缩容与可观测性等功能,为模型提供高效稳定的运行服务。
项目的主要特性和功能
- 高效的推理:底层采用多种先进推理运行框架和引擎,集成多种优化技术,推理性能比FastChat和vLLM提升20%以上。
- 轻松的管理:支持通过CLI或API调用一键启动、停止、重启、配置模型,便于管理。
- 便捷的服务:支持多模型在多机、多卡上的分布式推理服务,通过注册中心和请求分发服务实现。
- 可靠的量化:支持权重量化和k/v量化,性能好且稳定。
- 有状态推理:通过缓存多轮对话中的k/v记住对话历史,提升长文本多轮对话场景效率。
- 支持多种模型:支持Llama、Llama2、ChatGLM、QWen、Baichuan、InternLM等多种模型。
- 多推理引擎:支持TurboMind和PyTorch两种推理引擎,满足不同需求。
安装使用步骤
- 环境准备:确保已安装Python 3.8+,并安装所需的依赖库。
- 代码下载:下载项目源码。
- 安装HP-deploy:
shell pip install HP-deploy
- 配置和启动:根据项目文档配置模型路径和相关参数,通过CLI或API启动服务。
- 访问和管理:通过Web界面或API进行模型管理和推理服务。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】