littlebot

Published on 2025-04-08 / 5 Visits

0

【源码】基于Python的模型部署平台

项目简介

HP-deploy是一个基于Python的高性能模型部署平台，旨在提供优秀的模型部署解决方案。它建立在多种高性能开源推理框架之上，支持多模型实例、多推理框架、多云环境、自动扩缩容与可观测性等功能，为模型提供高效稳定的运行服务。

项目的主要特性和功能

高效的推理：底层采用多种先进推理运行框架和引擎，集成多种优化技术，推理性能比FastChat和vLLM提升20%以上。
轻松的管理：支持通过CLI或API调用一键启动、停止、重启、配置模型，便于管理。
便捷的服务：支持多模型在多机、多卡上的分布式推理服务，通过注册中心和请求分发服务实现。
可靠的量化：支持权重量化和k/v量化，性能好且稳定。
有状态推理：通过缓存多轮对话中的k/v记住对话历史，提升长文本多轮对话场景效率。
支持多种模型：支持Llama、Llama2、ChatGLM、QWen、Baichuan、InternLM等多种模型。
多推理引擎：支持TurboMind和PyTorch两种推理引擎，满足不同需求。

安装使用步骤

环境准备：确保已安装Python 3.8+，并安装所需的依赖库。
代码下载：下载项目源码。
安装HP-deploy： shell pip install HP-deploy
配置和启动：根据项目文档配置模型路径和相关参数，通过CLI或API启动服务。
访问和管理：通过Web界面或API进行模型管理和推理服务。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】