项目简介
HarvestText是一个专注于无(弱)监督方法的文本处理与分析库,可整合领域知识(如类型、别名)对特定领域文本进行简单高效的处理和分析。适用于多种文本预处理和初步探索性分析任务,在小说分析、网络文本、专业文献等领域有广泛应用价值。
项目的主要特性和功能
HarvestText功能丰富,涵盖基础文本处理到高级文本分析多个方面,主要有: - 精细分词分句:支持含指定词和类别的分词,考虑特殊标点分句。 - 文本清洗:处理URL、email、微博等文本特殊符号和格式,去除不必要标点。 - 实体链接:关联别名、缩写与标准名,便于统一处理。 - 命名实体识别:识别句子中的人名、地名、机构名等命名实体。 - 依存句法分析:分析语句词语语法关系,提取事件三元组。 - 情感分析:通过少量种子词,自动学习语料中词语情感倾向。 - 信息检索:统计特定实体在文档中的出现位置和次数。 - 新词发现:利用统计规律发现语料中的新词。 - 文本摘要:基于TextRank算法,提取文档代表性句子。 - 关键词抽取:使用TextRank或TF - IDF算法提取文本关键词。 - 关系网络:利用共现关系构建实体间网络关系。 - 自动分段:使用TextTiling算法对文本自动分段。 - 英语支持:提供少量英语文本处理功能,如情感分析。
安装使用步骤
安装
使用pip
安装HarvestText:
bash
pip install --upgrade harvesttext
使用示例
```python from harvesttext import HarvestText
ht = HarvestText()
text = "回复@钱旭明QXM:[嘻嘻][嘻嘻] //@钱旭明QXM:杨大哥[good][good]" cleaned_text = ht.clean_text(text) print(cleaned_text)
para = "上港的武磊和恒大的郜林,谁是中国最好的前锋?那当然是武磊武球王了,他是射手榜第一,原来是弱点的单刀也有了进步" entity_mention_dict = {'武磊': ['武磊', '武球王'], '郜林': ['郜林', '郜飞机']} entity_type_dict = {'武磊': '球员', '郜林': '球员'} ht.add_entities(entity_mention_dict, entity_type_dict) linked_entities = ht.entity_linking(para) print(linked_entities)
docs = ["武磊威武,中超第一射手!", "郜林看来不行,已经到上限了。", "武球王威武,中超最强前锋!", "武磊和郜林,谁是中国最好的前锋?"] summary = ht.get_summary(docs, topK=2) for sentence in summary: print(sentence) ```
更多功能
HarvestText还支持更多高级功能,如情感分析、关系网络构建、新词发现等。详细使用方法和示例可参考项目的文档。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】