买球·(中国大陆)APP官方网站

买球·(中国大陆)APP官方网站通过图编码程序(如TransE)对谓词左近图的学习-买球·(中国大陆)APP官方网站

发布日期:2024-08-10 05:50    点击次数:197

买球·(中国大陆)APP官方网站通过图编码程序(如TransE)对谓词左近图的学习-买球·(中国大陆)APP官方网站

AIxiv专栏是机器之心发布学术、时候骨子的栏目。往日数年,机器之心AIxiv专栏摄取报说念了2000多篇骨子买球·(中国大陆)APP官方网站,遮掩人人各大高校与企业的顶级实践室,灵验促进了学术交流与传播。淌若您有优秀的责任想要共享,迎接投稿或者关系报说念。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本责任由来自清华大学、墨尔本大学、香港华文大学、中国科学院大学的 Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi 等学者团队攀附完成。该团队专注于大模子、常识图谱、保举搜索、当然言语处理、大数据等场所的盘考。

常识图谱行动结构化常识的伏击载体,经常应用于信息检索、电商、有筹画推理等繁密范围。然则,由于不同机构或程序构建的常识图谱存在示意面目、遮掩范围等方面的互异,如何灵验地将不同的常识图谱进行会通,以得回愈加全面、丰富的常识体系,成为提高常识图谱遮掩度和准确率的伏击问题,这即是常识图谱对皆(Knowledge Graph Alignment)任务所要经管的中枢挑战。

传统的常识图谱对皆程序必须依赖东说念主工标注来对皆一些实体(entity)和谓词(predicate)等行动种子实体对。这么的程序奋斗、低效、况兼对皆的后果欠安。来自清华大学、墨尔本大学、香港华文大学、中国科学院大学的学者攀附建议了一种基于大模子的全自动进行常识图谱对皆的程序——AutoAlign。AutoAlign透彻不需要东说念主工来标注对皆的种子实体或者谓词对,而是全都通过算法关于实体语义和结构的意会来进行对皆,显赫提高了效劳和准确性。

论文:AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models,36 (6) TKDE 2024

论文攀附:https://arxiv.org/abs/2307.11772

代码攀附:https://github.com/ruizhang-ai/AutoAlign

模子先容

AutoAlign 主要由两部分构成:

用于将谓词(predicate)对皆的谓词镶嵌模块(Predicate Embedding Module)。

用于将实体(entity)对皆的实体镶嵌学习部分,包括两个模块:属性镶嵌模块 (Attribute Embedding Module)和结构镶嵌模块(Structure Embedding Module)。

总体进程如下图所示:

谓词镶嵌模块:谓词镶嵌模块旨在对皆两个常识图谱中代表计议含义的谓词。举例,将“is_in”和“located_in”进行对皆。为了齐全这一辩论,盘考团队创建了一个谓词左近图(Predicate Proximity Graph),将两个常识图谱归拢成一个图,并将其中的实体替换为其对应的类型(Entity Type)。这种面目基于以下假定:计议(或相通)的谓词,其对应的实体类型也应相通(举例,“is_in”和“located_in”的辩论实体类型大约率属于location或city)。通过大言语模子对类型的语义意会,进一步对皆这些类型,提高了三元组学习的准确性。最终,通过图编码程序(如TransE)对谓词左近图的学习,使得计议(或相通)的谓词具有相通的镶嵌,从而齐全谓词的对皆。

滨海风景道是广西第一批国家风景道——滇桂粤国家边海风景道的一部分,沿途由北海、钦州、防城港漫长的海岸线连接成独具特色的浪漫滨海城市群。风景道串点连线,西起东兴市竹山村,由西向东经8个县(市、区),终于合浦县山口镇,用211公里将绝美广西滨海景观一一铺陈呈现。

具体齐全上,盘考团队最初构建谓词左近图。谓词左近图是一种态状实体类型之间关系的图。实体类型示意实体的经常类别,不错自动攀附不同的实体。即使某些谓词的名义体式不同(举例“lgd:is_in”和“dbp:located_in”),通过学习谓词左近图,不错灵验识别它们的相通性。构建谓词左近图的要道如下:

实体类型索取:盘考团队通过获取每个实体在常识图谱中的rdfs:type谓词的值来索取实体类型。时常,每个实体有多个类型。举例,德国(Germany)实体在常识图谱中可能有多个类型,如“thing”、“place”、“location”和“country”。在谓词左近图中,他们用一组实体类型替换每个三元组的头实体和尾实体。

类型对皆:由于不同常识图谱中的实体类型可能使用不同的名义体式(举例,“person”和“people”),盘考团队需要对皆这些类型。为此,盘考团队欺骗最新的大言语模子(如ChatGPT和Claude)来自动对皆这些类型。举例,盘考团队不错使用Claude2来识别两个常识图谱中相通的类型对,然后将悉数相通类型对皆为调和的示意体式。为此,盘考团队想象了一套自动化提醒词(prompt),能够把柄不同的常识图谱进行自动化对皆词的获取。

为了捕捉谓词相通性,需要团聚多个实体类型。盘考团队建议了两种团聚程序:加权和基于留神力的函数。在实践中,他们发现基于留神力的函数后果更好。具体而言,他们野心每个实体类型的留神力权重,并通过加权乞降的面目得回最终的伪类型镶嵌。接下来,盘考团队通过最小化辩论函数来覆按谓词镶嵌,使得相通的谓词具有相通的向量示意。

属性镶嵌模块和结构镶嵌模块:属性镶嵌模块和结构镶嵌模块都用于实体(entity)对皆。它们的想想和谓词镶嵌相通,即关于计议(或相通)的实体,其对应的三元组中的谓词和另一个实体也应该具有相通性。因此,在谓词对皆(通过谓词镶嵌模块)和属性对皆(通过 Attribute Character Embeding 程序)的情况下,咱们不错通过TransE使相通的实体学习到相通的镶嵌。具体来说:

属性镶嵌学习:属性镶嵌模块通过编码属性值的字符序列来建树头实体和属性值之间的关系。盘考团队建议了三种组合函数来编码属性值:乞降组合函数、基于LSTM的组合函数和基于N-gram的组合函数。通过这些函数,咱们能够捕捉属性值之间的相通性,从而使得两个常识图谱中的实体属性不错对皆。

结构镶嵌学习:结构镶嵌模块基于TransE程序进行了立异,通过赋予不同邻居不同的权重来学习实体的镶嵌。已对皆的谓词和隐含对皆的谓词将得回更高的权重,而未对皆的谓词则被视为噪声。通过这种面目,结构镶嵌模块能够更灵验地从已对皆的三元组中学习。

攀附覆按:谓词镶嵌模块、属性镶嵌模块和结构镶嵌模块这三个模块不错进行轮流覆按,通过轮流学习的面目彼此影响,通过优化镶嵌使其在各个结构的示意中达到合座最优。覆按完成后,盘考团队得回了实体(entity)、谓词(predicate)、属性(attribute)和类型(type)的镶嵌示意。终末,咱们通过对比两个常识图谱中的实体相通性(如cosine similarity),找到相通性高的实体对(需要高于一个阈值)来进行实体对皆。

实践纵容

盘考团队在最新的基准数据集DWY-NB (Rui Zhang, 2022) 上进行了实践,主要纵容如下表所示。

AutoAlign在常识图谱对皆性能方面有显赫提高,十分是在短少东说念主工标注种子的情况下,浮现尤为出色。在莫得东说念主工标注的情况下,现存的模子果然无法进行灵验对皆。然则,AutoAlign在这种条款下如故能够取得优异的浮现。在两个数据集上,AutoAlign在莫得东说念主工标注种子的情况下,比拟于现存最好基准模子(即使有东说念主工标注)有显赫的提高。这些纵容标明,AutoAlign不仅在对皆准确性上优于现存程序,况兼在全都自动化的对皆任务中展现了庞杂的上风。

参考文件:

Rui Zhang, Bayu D. Trisedya买球·(中国大陆)APP官方网站, Miao Li, Yong Jiang, and Jianzhong Qi (2022). A Benchmark and Comprehensive Survey on Knowledge Graph Entity Alignment via Representation Learning. VLDB Journal, 31 (5), 1143–1168, 2022.