项目简介
Baichuan-13B-Chat是由百川智能开发的Baichuan-13B系列模型中对齐后的版本。该模型具备强大的对话能力,支持中英双语,在权威的中文和英文benchmark上均取得同尺寸最好的效果。模型在高质量语料上训练了1.4万亿tokens,是当前开源13B尺寸下训练数据量最多的模型。同时,还开源了int8和int4的量化版本,降低了部署门槛。
项目的主要特性和功能
- 参数规模大:拥有130亿参数,在权威的中英benchmark上表现出色。
- 对话能力强:经过对齐处理,能生成流畅自然的回复,开箱即用。
- 推理高效:提供int8和int4量化版本,可部署在消费级显卡上。
- 开源免费商用:对学术研究完全开放,开发者邮件申请获得官方商用许可后可免费商用。
安装使用步骤
假设用户已经下载了本项目的源码文件,按以下步骤操作:
1. 安装依赖:确保已安装PyTorch和transformers库。
2. 导入模型:使用AutoModelForCausalLM
和AutoTokenizer
类从Hugging Face模型仓库中加载模型。
3. 准备输入:创建一个包含用户输入和角色信息的消息列表。
4. 生成回复:使用model.chat()
方法生成回复。
示例代码如下: ```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-13B-Chat") model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat")
messages = [] messages.append({"role": "user", "content": "世界上第二高的山峰是哪座"}) response = model.chat(tokenizer, messages) print(response) ```
量化部署
使用int8量化
python
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float16)
model = model.quantize(8).cuda()
使用int4量化
python
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float16)
model = model.quantize(4).cuda()
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】