项目简介
本项目是基于Python的中文文本关键词抽取系统,运用TF-IDF、TextRank、Word2Vec词聚类三种算法,自动提取中文文本的关键词,助力用户快速把握文本核心内容,适用于专利文本、新闻文章、学术论文等多种文本类型。
项目的主要特性和功能
- TF-IDF关键词抽取:借助计算词频(TF)和逆文档频率(IDF)评估词语重要性,提取代表文本内容的关键词。
- TextRank关键词抽取:基于PageRank算法,构建词语共现网络,计算词语重要性得分来提取关键词。
- Word2Vec词聚类关键词抽取:利用Word2Vec模型将词语映射为高维向量,通过K-means聚类算法对词语聚类,选取聚类中心及其邻近词语作为关键词。
安装使用步骤
环境准备
- 安装Python 2.7.13版本。
- 安装所需的第三方库:
bash pip install jieba gensim pandas numpy scikit-learn matplotlib
数据准备
- 准备一个包含文本ID、标题和摘要的CSV文件(如
sample_data.csv
)。 - 准备停用词表(如
stopWord.txt
),可按需添加自定义停用词。 - 准备预训练的Word2Vec模型文件(如
wiki.zh.text.vector
)。
运行代码
- 分别运行以下Python脚本来进行关键词抽取:
- TF-IDF关键词抽取:运行
tfidf_keyword_extraction.py
。 - TextRank关键词抽取:运行
textrank_keyword_extraction.py
。 - Word2Vec词聚类关键词抽取:运行
word2vec_keyword_extraction.py
。
结果查看
- 每种方法生成的关键词结果将分别保存在
keys_TFIDF.csv
、keys_TextRank.csv
和keys_word2vec.csv
文件中。 - 打开这些文件,查看提取的关键词及其对应的权重或距离。
注意事项
- 确保所有依赖库已正确安装,并且数据文件的路径和命名与代码中的要求一致。
- 如果需要处理其他类型的文本,可以根据实际情况调整停用词表和样本数据。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】