项目简介
本项目为天池比赛CCKS2023指令驱动的自适应知识图谱构建比赛的参赛代码。聚焦于在已有知识图谱构建大模型Zhixi的基础上,最大化提升单一大模型在知识图谱构建方面的效果。项目提出了多种策略来干涉大模型生成结果的过程,以获取更多候选三元组。
项目的主要特性和功能
triple-level-search
方法:生成句子时保留每种分支的可能,直至当前三元组生成完成,在不同长度三元组生成上有更好的自适应能力。Tail-first-model
训练:运用LoRA方法在基准大模型基础上微调,得到按(tail, relation, head)顺序生成三元组的模型。- 打乱relation_set顺序:通过打乱relation_set顺序,以及预提供
<head, rel>
对或<tail, rel>
对的形式干涉大模型生成结果。 - 结果选取算法:从候选三元组集合中选取最终结果,优先选取
head-first-model
和tail-first-model
共有的结果,结合特定relation手动制定的处理规则得出最终结果。
安装使用步骤
前提条件
用户已下载本项目的源码文件。
具体步骤
- 数据和环境准备
- 从比赛界面下载三个数据文件,放置在
data/
文件夹下。 - 下载基准知识图谱大模型的参数,放置在
model_hub/
文件夹下。 - 下载并设置
tail-first-model
的LoRA模型参数。
- 从比赛界面下载三个数据文件,放置在
- 运行项目
- 快速复现比赛结果:根据GPU显存情况选择执行命令,读取数据集和预生成的临时文件,输出结果并更新临时文件。
- 训练
tail-first-model
:生成训练数据集并进行模型训练。 - 完整执行流程:依次生成不同结果并最终输出结果。
可能的问题
triple-level-search
方法:仅支持batchsize=1的生成,某些输入下可能报错。- 基准模型问题:运行中可能生成预料之外的符号,导致
triple-level-search
报错。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】