知识图谱数据构建的“硬骨头”,阿里工程师怎样拿下?
实验证明,利用改进算法得到的输入集规模有显著的减小,以百科文本的抽取为例,婚姻关系的输入集可缩小至原输入集的 13%,人物和毕业院校关系的输入集可缩小至原输入集的 36%。输入集的缩小能显著减少系统运行时间,且实验证明,排除了大量 doubt 标注实体候选对的干扰,系统的准确率也有较大幅度的提升。
需要指出的是,虽然在输入环节通过关系相关关键词进行过滤减小输入规模,能最有效地提高系统运行效率(因为跳过了包含特征提取在内的所有后续计算步骤),但该环节的过滤是以句子为单位,而非作用于抽取的候选实体对。来看一个婚姻关系提取的多人物示例:
除了孙楠、那英等表演嘉宾盛装出席外,担任本场音乐会监制的华谊兄弟总裁王中磊先生、冯小刚导演和夫人徐帆,以及葛优、宋丹丹、李冰冰等演艺明星也一一现身红毯,到场支持此次音乐会。
因为含有婚姻关系相关的关键词“夫人”,该句子将被保留为系统输入。从该句提取的多个人物候选实体对需要依靠更完善的启发式规则来完成进一步的标注和过滤。
实体对到多实体的扩展
关系抽取的绝大部分任务仅涉及三元组的抽取。三元组一般有两种形式,一种是两个实体具有某种关系,形如R(E1, E2),例如:婚姻关系(刘德华,朱丽倩);另一种是实体的属性值,形如P(E,V),例如:身高(刘德华,1.74 米)。DeepDive 默认的关系抽取模式都是基于三元组的。但在实际应用中,有很多复杂的关系用三元组难以完整表达,例如,人物的教育经历,包括人物、人物的毕业院校、所学专业、取得学位、毕业时间等。这些复杂的多实体关系在神马知识图谱中用复合类型来表示。因此,为使抽取任务能兼容复合类型的构建时,我们对 DeepDive 的代码做了一些修改,将候选实体对的提取,扩展为候选实体组的提取。代码修改涉及主抽取模块中的 app.ddlog、底层用于特征自动生成的 DDlib 和 udf 中的 map_entity_mention.py、extract_relation_features.py 等文件。下图展示了一个扩展后的实体组抽取实例,抽取关系为(人物、所在机构、职位):
应用 DeepDive 的数据构建工作
本节首先给出一个输入示例以及该示例在 DeepDive 运行过程中每一步的输出结果,如下图所示。通过这个示例,我们可以对 DeepDive 各模块的功能和输出有更直观的认识。
为了更详细地了解 DeepDive 的应用和改进算法的效果,以下我们给出一个具体的婚姻关系抽取任务的相关运行数据。
下表显示了该抽取任务在数据处理阶段各步骤的的耗时和产出数量:
在数据标注的远程监督阶段,我们除了使用知识图谱中已有的夫妻关系做正例标注,还使用了已有的父母-子女关系和兄弟姐妹关系做负例标注,得到正例数千个,正负标注候选实体的比例约为1:2。
在 DeepDive 系统中,远程监督的 wrong label problem 可以依靠合理编写的启发式规则得到一定程度的纠正。观察婚姻关系的 wrong label 样例,我们发现较大比例的 wrong label 是夫妻实体以某种合作形式(如合作演出、合作演唱、合作著书等)共现在一个句子中,夫妻实体有一个出现在书名号中时,也容易发生误判。例如:
类似的观察和总结可以编写成启发式规则,依靠从规则得到的负标注抵偿远程监督得到的正标注,减小系统在学习和推理时的偏差。
虽然启发式规则的编写大多依靠专家知识或人工经验完成,但规则的完善和扩充可以依靠某些自动机制来辅助实现。例如,规则定义:句中出现“P_1 和P_2 结婚”,则(P_1,P_2)得到正标注。根据对“和”和“结婚”等 token 的扩展,我们可以得到“P_1 与P_2 结婚”、“P_1 和 P2 婚后”、“P_1 和P_2 的婚礼”等类似应该标注为正的语境。这里,token 的扩展可以通过 word2vec 算法加人工过滤实现。下表给出了该抽取任务中用到的规则和相应的统计数据。整个数据标注过程耗为 14m21s。
学习与推理过程耗时约 38m50s。我们随机截取了部分知识图谱未收录的预测实体对的输出结果展示如下:
对于系统的准确率,我们取 expectation 为 [0.95,1][0.95,1] 区间内的输出结果进行分段统计,统计结果如下列图表所示:
对系统预测的错误样例进行分析,我们总结了几种错误类型,下表按照出现频率从高到低,给出了错误描述和错误示例:
系统召回率的计算相比准确率的计算更为复杂,在语料规模较大的情况下,准确估算召回率将耗费大量的人力。我们采用了抽样检测的方式来估算召回率,具体实践了以下三种方法(统计中 expectation 均取>=0.95):
抽样含有某个指定实体的所有 sentences,计算召回:含实体 “杨幂” 的 sentences 共 78 例,含 (杨幂, 刘恺威)实体对的 sentences 共 13 例,人工判断其中 9 例描述了该实体对的婚姻关系,其中 5 例被召回,召回率为 0.556。
用于远程监督正例标注的知识图谱实体对超过 4000 对,统计表明,其中 42.7% 的实体对出现在了语料中,26.5% 的实体对被召回,召回率为 0.621。
输入集随机挑选 100 例 positive cases,其中 49 例的 expectation 值>=0.95, 召回率为 0.49。
(编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |