【源码】基于Python的中文分词工具包 pkuseg

项目简介

pkuseg 是一个基于Python的中文分词工具包，能提供高效、准确的中文分词服务。它支持多领域分词，有针对不同领域的个性化预训练模型，可有效提升分词准确度。此外，该工具包支持用户自训练模型，还具备词性标注功能。

使用pip安装 pkuseg，推荐更新到最新版本以获得更好的使用体验。 bash pip3 install pkuseg pip3 install -U pkuseg # 更新到最新版本

通过导入 pkuseg 模块，加载相应的模型进行分词。支持细领域分词，并提供了词性标注功能。 ```python import pkuseg

seg = pkuseg.pkuseg() text = seg.cut('我爱北京天安门') print(text)

seg = pkuseg.pkuseg(model_name='medicine') text = seg.cut('我爱北京天安门') print(text)

seg = pkuseg.pkuseg(postag=True) text = seg.cut('我爱北京天安门') print(text) ```

用户可以通过提供的训练数据进行模型训练，并保存训练好的模型。 python pkuseg.train('trainFile', 'testFile', 'savedir', train_iter=20, init_model=None)

点击下载 【提取码: 4003】【解压密码: www.makuang.net】