littlebot
Published on 2025-04-12 / 1 Visits
0

【源码】基于Python的中文文本关键词抽取系统

项目简介

本项目是基于Python的中文文本关键词抽取系统,运用TF-IDF、TextRank、Word2Vec词聚类三种算法,自动提取中文文本的关键词,助力用户快速把握文本核心内容,适用于专利文本、新闻文章、学术论文等多种文本类型。

项目的主要特性和功能

  • TF-IDF关键词抽取:借助计算词频(TF)和逆文档频率(IDF)评估词语重要性,提取代表文本内容的关键词。
  • TextRank关键词抽取:基于PageRank算法,构建词语共现网络,计算词语重要性得分来提取关键词。
  • Word2Vec词聚类关键词抽取:利用Word2Vec模型将词语映射为高维向量,通过K-means聚类算法对词语聚类,选取聚类中心及其邻近词语作为关键词。

安装使用步骤

环境准备

  • 安装Python 2.7.13版本。
  • 安装所需的第三方库: bash pip install jieba gensim pandas numpy scikit-learn matplotlib

数据准备

  • 准备一个包含文本ID、标题和摘要的CSV文件(如sample_data.csv)。
  • 准备停用词表(如stopWord.txt),可按需添加自定义停用词。
  • 准备预训练的Word2Vec模型文件(如wiki.zh.text.vector)。

运行代码

  • 分别运行以下Python脚本来进行关键词抽取:
  • TF-IDF关键词抽取:运行tfidf_keyword_extraction.py
  • TextRank关键词抽取:运行textrank_keyword_extraction.py
  • Word2Vec词聚类关键词抽取:运行word2vec_keyword_extraction.py

结果查看

  • 每种方法生成的关键词结果将分别保存在keys_TFIDF.csvkeys_TextRank.csvkeys_word2vec.csv文件中。
  • 打开这些文件,查看提取的关键词及其对应的权重或距离。

注意事项

  • 确保所有依赖库已正确安装,并且数据文件的路径和命名与代码中的要求一致。
  • 如果需要处理其他类型的文本,可以根据实际情况调整停用词表和样本数据。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】