项目简介
pkuseg
是一个基于Python的中文分词工具包,能提供高效、准确的中文分词服务。它支持多领域分词,有针对不同领域的个性化预训练模型,可有效提升分词准确度。此外,该工具包支持用户自训练模型,还具备词性标注功能。
项目的主要特性和功能
- 多领域分词:支持新闻、网络、医药、旅游等多个领域的分词,用户可根据待分词语料的领域特点选择相应模型。
- 高分词准确率:在相同训练数据和测试数据上,比其他分词工具包有更高的分词准确率。
- 支持用户自训练模型:用户能使用全新的标注数据进行模型训练。
- 词性标注:支持在分词的同时进行词性标注。
安装使用步骤
安装
使用pip安装 pkuseg
,推荐更新到最新版本以获得更好的使用体验。
bash
pip3 install pkuseg
pip3 install -U pkuseg # 更新到最新版本
使用
通过导入 pkuseg
模块,加载相应的模型进行分词。支持细领域分词,并提供了词性标注功能。
```python
import pkuseg
seg = pkuseg.pkuseg() text = seg.cut('我爱北京天安门') print(text)
seg = pkuseg.pkuseg(model_name='medicine') text = seg.cut('我爱北京天安门') print(text)
seg = pkuseg.pkuseg(postag=True) text = seg.cut('我爱北京天安门') print(text) ```
模型训练
用户可以通过提供的训练数据进行模型训练,并保存训练好的模型。
python
pkuseg.train('trainFile', 'testFile', 'savedir', train_iter=20, init_model=None)
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】