littlebot

Published on 2025-04-08 / 5 Visits

0

【源码】基于Python的InstructKGC项目

项目简介

本项目为天池比赛CCKS2023指令驱动的自适应知识图谱构建比赛的参赛代码。聚焦于在已有知识图谱构建大模型Zhixi的基础上，最大化提升单一大模型在知识图谱构建方面的效果。项目提出了多种策略来干涉大模型生成结果的过程，以获取更多候选三元组。

项目的主要特性和功能

triple-level-search方法：生成句子时保留每种分支的可能，直至当前三元组生成完成，在不同长度三元组生成上有更好的自适应能力。
Tail-first-model训练：运用LoRA方法在基准大模型基础上微调，得到按(tail, relation, head)顺序生成三元组的模型。
打乱relation_set顺序：通过打乱relation_set顺序，以及预提供<head, rel>对或<tail, rel>对的形式干涉大模型生成结果。
结果选取算法：从候选三元组集合中选取最终结果，优先选取head-first-model和tail-first-model共有的结果，结合特定relation手动制定的处理规则得出最终结果。

安装使用步骤

前提条件

用户已下载本项目的源码文件。

具体步骤

数据和环境准备
- 从比赛界面下载三个数据文件，放置在data/文件夹下。
- 下载基准知识图谱大模型的参数，放置在model_hub/文件夹下。
- 下载并设置tail-first-model的LoRA模型参数。
运行项目
- 快速复现比赛结果：根据GPU显存情况选择执行命令，读取数据集和预生成的临时文件，输出结果并更新临时文件。
- 训练tail-first-model：生成训练数据集并进行模型训练。
- 完整执行流程：依次生成不同结果并最终输出结果。

可能的问题

triple-level-search方法：仅支持batchsize=1的生成，某些输入下可能报错。
基准模型问题：运行中可能生成预料之外的符号，导致triple-level-search报错。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】