【源码】基于Python的HarvestText文本处理与分析工具

项目简介

HarvestText是一个专注于无（弱）监督方法的文本处理与分析库，可整合领域知识（如类型、别名）对特定领域文本进行简单高效的处理和分析。适用于多种文本预处理和初步探索性分析任务，在小说分析、网络文本、专业文献等领域有广泛应用价值。

项目的主要特性和功能

HarvestText功能丰富，涵盖基础文本处理到高级文本分析多个方面，主要有： - 精细分词分句：支持含指定词和类别的分词，考虑特殊标点分句。 - 文本清洗：处理URL、email、微博等文本特殊符号和格式，去除不必要标点。 - 实体链接：关联别名、缩写与标准名，便于统一处理。 - 命名实体识别：识别句子中的人名、地名、机构名等命名实体。 - 依存句法分析：分析语句词语语法关系，提取事件三元组。 - 情感分析：通过少量种子词，自动学习语料中词语情感倾向。 - 信息检索：统计特定实体在文档中的出现位置和次数。 - 新词发现：利用统计规律发现语料中的新词。 - 文本摘要：基于TextRank算法，提取文档代表性句子。 - 关键词抽取：使用TextRank或TF - IDF算法提取文本关键词。 - 关系网络：利用共现关系构建实体间网络关系。 - 自动分段：使用TextTiling算法对文本自动分段。 - 英语支持：提供少量英语文本处理功能，如情感分析。

安装使用步骤

安装

使用pip安装HarvestText： bash pip install --upgrade harvesttext

使用示例

```python from harvesttext import HarvestText

ht = HarvestText()

text = "回复@钱旭明QXM:[嘻嘻][嘻嘻] //@钱旭明QXM:杨大哥[good][good]" cleaned_text = ht.clean_text(text) print(cleaned_text)

para = "上港的武磊和恒大的郜林，谁是中国最好的前锋？那当然是武磊武球王了，他是射手榜第一，原来是弱点的单刀也有了进步" entity_mention_dict = {'武磊': ['武磊', '武球王'], '郜林': ['郜林', '郜飞机']} entity_type_dict = {'武磊': '球员', '郜林': '球员'} ht.add_entities(entity_mention_dict, entity_type_dict) linked_entities = ht.entity_linking(para) print(linked_entities)

docs = ["武磊威武，中超第一射手！", "郜林看来不行，已经到上限了。", "武球王威武，中超最强前锋！", "武磊和郜林，谁是中国最好的前锋？"] summary = ht.get_summary(docs, topK=2) for sentence in summary: print(sentence) ```

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】

Menu

Share

【源码】基于Python的HarvestText文本处理与分析工具

项目简介

项目的主要特性和功能

安装使用步骤

安装

使用示例

更多功能

下载地址

【源码】基于Python的猫眼电影票房数据分析系统

【源码】基于Python的云运动一键跑步脚本

【源码】基于ROS和MoveIt的双臂机器人控制系统

【源码】基于Arduino的易经随机卦象生成器

【源码】基于Java的超星学习通PDF下载工具

【源码】基于Node.js的B站动态抽奖自动化脚本

【源码】基于Spring Boot和Vue的苍穹外卖管理系统

【源码】基于思源笔记的插件开发示例

【源码】基于Arduino的智能花盆控制系统

【源码】基于ROS框架的UR5机器人视觉伺服仿真系统