littlebot
Published on 2025-04-08 / 3 Visits
0

【源码】基于Python的InstructKGC项目

项目简介

本项目为天池比赛CCKS2023指令驱动的自适应知识图谱构建比赛的参赛代码。聚焦于在已有知识图谱构建大模型Zhixi的基础上,最大化提升单一大模型在知识图谱构建方面的效果。项目提出了多种策略来干涉大模型生成结果的过程,以获取更多候选三元组。

项目的主要特性和功能

  1. triple-level-search方法:生成句子时保留每种分支的可能,直至当前三元组生成完成,在不同长度三元组生成上有更好的自适应能力。
  2. Tail-first-model训练:运用LoRA方法在基准大模型基础上微调,得到按(tail, relation, head)顺序生成三元组的模型。
  3. 打乱relation_set顺序:通过打乱relation_set顺序,以及预提供<head, rel>对或<tail, rel>对的形式干涉大模型生成结果。
  4. 结果选取算法:从候选三元组集合中选取最终结果,优先选取head-first-modeltail-first-model共有的结果,结合特定relation手动制定的处理规则得出最终结果。

安装使用步骤

前提条件

用户已下载本项目的源码文件。

具体步骤

  1. 数据和环境准备
    • 从比赛界面下载三个数据文件,放置在data/文件夹下。
    • 下载基准知识图谱大模型的参数,放置在model_hub/文件夹下。
    • 下载并设置tail-first-model的LoRA模型参数。
  2. 运行项目
    • 快速复现比赛结果:根据GPU显存情况选择执行命令,读取数据集和预生成的临时文件,输出结果并更新临时文件。
    • 训练tail-first-model:生成训练数据集并进行模型训练。
    • 完整执行流程:依次生成不同结果并最终输出结果。

可能的问题

  1. triple-level-search方法:仅支持batchsize=1的生成,某些输入下可能报错。
  2. 基准模型问题:运行中可能生成预料之外的符号,导致triple-level-search报错。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】