项目简介
pkuseg是基于论文[Luo et. al, 2019]的中文分词工具包,具备多领域分词、高准确率、支持用户自训练模型以及支持词性标注等特点。
项目的主要特性和功能
- 多领域分词:支持新闻、网络、医药、旅游等不同领域的分词,且提供相应领域的预训练模型。
- 高准确率:在细领域数据上能取得较高的分词准确率。
- 用户自训练模型:允许用户使用全新数据进行模型训练。
- 词性标注:可在输出分词结果的同时标注每个词的词性。
安装使用步骤
环境准备
确保已安装Python3,建议使用pip安装。
安装pkuseg
bash
pip3 install pkuseg
使用示例
python
import pkuseg
seg = pkuseg.pkuseg() # 使用默认配置加载模型
text = seg.cut('我爱北京天安门') # 进行分词
print(text)
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】