知识图谱数据构建的“硬骨头”,阿里工程师怎样拿下?
发布时间:2021-10-03 17:29:36 所属栏目:大数据 来源:互联网
导读:作为近年来搜索领域和自然语言处理领域的热点,知识图谱正引领着搜索引擎向知识引擎的转变。在阿里的神马搜索中,知识图谱及其相关技术的广泛应用不仅能帮助用户
基于 DeepDive 的关系抽取研究目前已较为完整,并已经在神马知识图谱的构建业务中落地。目前在数据构建中的应用涉及人物、历史、组织机构、图书、影视等多个核心领域,已抽取关系包括人物的父母、子女、兄弟姐妹、婚姻、历史事件及人物的合称、图书的作者、影视作品的导演和演员、人物的毕业院校和就业单位等。以百科全量语料为例,每个关系抽取任务候选 sentence 集合的规模在 80w 至 1000w,经改进算法过滤,输入规模在 15w 至 200w 之间,生成的候选实体对规模在 30w 至 500w 之间。系统每轮迭代运行的时间在 1 小时至 8 小时之间,约经过3-4 轮迭代可产出准确率和召回率都较高的数据给运营审核环节。系统运行至今,已累计产出候选三元组近 3 千万。
除此之外,基于深度学习模型的关系抽取技术及其在神马知识图谱数据构建中的应用,我们也在不断探索和实践。明天,阿里妹将继续为大家介绍相关的技术进展和业务落地过程中遇到的一些挑战,敬请关注哦。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |