项目简介
这是一个专为中文语言设计的词汇聚类管理系统。它以FastText的中文预训练模型为基础,结合KMeans聚类算法,能帮助中级水平的中文学习者系统性地管理和扩展中文词汇量,通过将相关词汇分组,提高学习效率和长期记忆保持。
项目的主要特性和功能
- 词汇聚类:把常见中文词汇分成不同聚类,让相关或类似词汇汇聚在一起。
- 快速有效学习:通过学习特定主题或领域的小词汇聚类扩展词汇,控制每天学习的词汇量以提升学习和记忆效果。
- 适应性调整:可根据学习者需求改变聚类大小或自定义词汇列表。
- 清晰直观输出:输出文件包含词汇聚类和统计信息,助用户更好理解和管理词汇内容,还能从频率列表获取更多细节。
- 依赖项和参考资料:除FastText模型外,依赖Python库SciPy和NumPy,提供使用FastText模型和KMeans算法的参考资料链接。
安装使用步骤
安装步骤
- 安装所需Python库(FastText、SciPy和NumPy),使用pip安装,运行
pip install fasttext scipy numpy
命令,确保Python版本为3.6或以上。 - 从FastText官方网站下载中文预训练模型,将其放在项目同一目录下。
使用方法
- 运行
chinese-vocab-cluster.py
脚本,该脚本会用FastText模型对56000个常用中文词汇进行聚类,生成output.txt
文件。 - 打开
output.txt
文件,选择每天学习的词汇聚类,建议每天学习1到2个聚类。 - 可按需调整
cluster_size
变量改变每个聚类的大小。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】