littlebot
Published on 2025-04-03 / 0 Visits
0

【源码】基于Python的中文分词工具包 pkuseg

项目简介

pkuseg 是一个基于Python的中文分词工具包,能提供高效、准确的中文分词服务。它支持多领域分词,有针对不同领域的个性化预训练模型,可有效提升分词准确度。此外,该工具包支持用户自训练模型,还具备词性标注功能。

项目的主要特性和功能

  1. 多领域分词:支持新闻、网络、医药、旅游等多个领域的分词,用户可根据待分词语料的领域特点选择相应模型。
  2. 高分词准确率:在相同训练数据和测试数据上,比其他分词工具包有更高的分词准确率。
  3. 支持用户自训练模型:用户能使用全新的标注数据进行模型训练。
  4. 词性标注:支持在分词的同时进行词性标注。

安装使用步骤

安装

使用pip安装 pkuseg,推荐更新到最新版本以获得更好的使用体验。 bash pip3 install pkuseg pip3 install -U pkuseg # 更新到最新版本

使用

通过导入 pkuseg 模块,加载相应的模型进行分词。支持细领域分词,并提供了词性标注功能。 ```python import pkuseg

seg = pkuseg.pkuseg() text = seg.cut('我爱北京天安门') print(text)

seg = pkuseg.pkuseg(model_name='medicine') text = seg.cut('我爱北京天安门') print(text)

seg = pkuseg.pkuseg(postag=True) text = seg.cut('我爱北京天安门') print(text) ```

模型训练

用户可以通过提供的训练数据进行模型训练,并保存训练好的模型。 python pkuseg.train('trainFile', 'testFile', 'savedir', train_iter=20, init_model=None)

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】