设为首页收藏本站迅维网APP

开启辅助访问

只需一步，快速开始

登录注册找回密码切换到宽版 |

|

迅维网»论坛 › 综合服务论坛 › 谈天说地|爆料吐槽 › 知识表示学习模型

查看: 1293|回复: 4

上一主题

下一主题

知识表示学习模型

头像被屏蔽

电梯直达

跳转到指定楼层

1^#

发表于 2023-3-29 12:34:32 | 只看该作者回帖奖励

回帖奖励

|倒序浏览 |阅读模式来自：湖南来自湖南

马上注册，获取阅读精华内容及下载权限

您需要登录才可以下载或查看，没有帐号？注册

x

https://blog.csdn.net/Kaiyuan_sjtu/article/details/101841458

最近清华的THUNLP整理了Pre-trained Languge Model (PLM)相关的工作：PLMpapers，非常全面，想要了解最新NLP发展的同学不要错过。本来这篇是打算写一写Knowledge Graph + BERT系列工作的，但是最近有在做知识图谱的一些东西所以就先整理一下**知识表示学习(knowledge representation learning)**的相关模型发展，这样我们看后面的paper也会得心应手一些。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

1. A glance at Knowledge Representation LearningWhat

首先什么是表示学习？其实我们早就在频繁使用了，比如词向量embedding，这种将研究对象的语义信息表示为稠密低维的实值向量的形式就叫表示学习。有了表示学习的定义，那么知识表示学习(KRL) 就是面向知识库中实体和关系的表示学习，通过将实体或关系投影到低维向量空间，能够实现对实体和关系的语义信息的表示，可以高效地计算实体、关系及其之间的复杂语义关联。

Why

那么为什么会冒出知识表示学习呢？

显著提高计算效率。简单地基于图算法计算实体间的语义和推理关系，其计算复杂度高、可扩展性差；而表示学习得到的分布式表示，则能够高效地实现语义相似度计算等操作。
有效缓解数据稀疏。一方面将每个对象投影到低维的稠密向量空间；另一方面在投影过程中也可以借用高频对象的语义信息帮助低频对象的语义表示，捕获长尾分布。
实现异质信息融合。将不同来源的对象投影到同一语义空间中，就能够建立统一的表示空间。

How

接下去会介绍知识表示学习的主要方法及前沿进展，这也是本系列博文的重要。首先给出整体定义：

知识库表示为 G=(E, R, S)，其中E = { e 1 , e 2 , ⋯ , e E } E={\{e_{1},e_{2}, \cdots, e_{E}\}}E={e1,e2,⋯,eE}是实体集合，R = { r 1 , r 2 , ⋯ , r R } R=\left\{r_{1}, r_{2}, \cdots, r_{R}\right\}R={r1,r2,⋯,rR}是关系集合，S是三元组集合，表示为(h, r, t)

基于距离的模型
基于翻译的模型
语义匹配模型
融合多源信息的模型
前沿进展

paper list ref

2. Distance-Based ModelsUM Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing(2012)

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

SELearning Structured Embeddings of Knowledge Bases(AAAI/2011)

在本文中，作者指出目前已有的知识库都是基于不同的框架，因此很难将它们整合应用到一个新的系统中。但是知识库中存在大量的结构化和组织化的数据，如果能够充分利用起来将会对AI领域非常有帮助。于是作者们提出一种模型将任何知识库中的实体和关系嵌入到一个更灵活的连续向量空间。嵌入可以认为是一个神经网络，该神经网络的特殊结构允许将原始数据结构集成到所学习的表示中。更准确地说，考虑到知识库是由一组实体和它们之间的关系定义的，该模型为每个实体（即一个低维向量）学习一个嵌入(embedding)，为每个关系（即矩阵）学习一个运算符(operator)。另外，在低维embedding空间使用核密度估计可以估量空间的概率密度，这样可以量化实体之间的关系存在可能性。

结构表示（Structured Embeddings，SE）中每个实体用d dd维的向量表示，所有实体被投影到同一个d dd维向量空间中。同时，SE还为每个关系定义了两个矩阵M r , 1 , M r , 2 ∈ R d × d \boldsymbol{M}_{r, 1}, \boldsymbol{M}_{r, 2} \in \mathbb{R}^{d \times d}Mr,1,Mr,2∈Rd×d用于三元组中头实体和尾实体的投影操作。最后SE为每个三元组( h , r , t ) (h, r, t)(h,r,t)定义了损失函数：f r ( h , t ) = ∣ M r , 1 l h − M r , 2 l t ∣ L 1 f_{r}(h, t)=\left|\boldsymbol{M}_{r, 1} \boldsymbol{l}_{h}-\boldsymbol{M}_{r, 2} \boldsymbol{l}_{t}\right|_{L_{1}}fr(h,t)=∣Mr,1lh−Mr,2lt∣L1对于上述损失函数，我们可以理解为通过两个关系矩阵将头尾两个实体投影到同一关系空间中，然后在该空间中计算两投影向量的距离。而这个距离则反映了头尾实体之间在特定关系下的语义相似度，他们的距离越小则表明越有可能存在这种关系。

SE模型要学习的参数是实体向量矩阵E EE 和两个关系矩阵R l h s R^{lhs}Rlhs、R r h s R^{rhs}Rrhs，下面是模型的训练过程：

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

可以看出SE模型对头尾两个实体使用不同的矩阵进行投影，协同性较差，往往无法精确刻画两实体之间的语义联系。

3. Trans-Based ModelsTransE Translating Embeddings for Modeling Multi-relational Data(NIPS2013)

TransE是Trans系列模型的开山之作，也是知识图谱向量表示的baseline模型，后面会介绍它的很多变体。其实TransE的思想很简单，为了将实体与关系嵌入到低维的向量空间，对于知识库中的每个三元组( h , r , t ) (h, r, t)(h,r,t)，认为头实体的embedding加上关系的embedding之后应该是与尾实体的embedding非常接近的。于是，可以将关系看做是两个实体之间的某种平移向量，如下图：

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

按照上面的思路，即有了TransE模型的损失函数：L = ∑ ( h , ℓ , t ) ∈ S ( h ′ , ℓ , t ′ ) ∈ S ( h , ℓ , t ) ′ [ γ + d ( h + ℓ , t ) − d ( h ′ + ℓ , t ′ ) ] + \mathcal{L}=\sum_{(h, \ell, t) \in S\left(h^{\prime}, \ell, t^{\prime}\right) \in S_{(h, \ell, t)}^{\prime}}\left[\gamma+d(\boldsymbol{h}+\ell, \boldsymbol{t})-d\left(\boldsymbol{h}^{\prime}+\ell, \boldsymbol{t}^{\prime}\right)\right]_{+}L=(h,ℓ,t)∈S(h′,ℓ,t′)∈S(h,ℓ,t)′∑[γ+d(h+ℓ,t)−d(h′+ℓ,t′)]+这个损失函数是带有negative sampling和margin-based loss的

negative sampling：S ( h , ℓ , t ) ′ = { ( h ′ , ℓ , t ) ∣ h ′ ∈ E } ∪ { ( h , ℓ , t ′ ) ∣ t ′ ∈ E } S_{(h, \ell, t)}^{\prime}=\left\{\left(h^{\prime}, \ell, t\right) | h^{\prime} \in E\right\} \cup\left\{\left(h, \ell, t^{\prime}\right) | t^{\prime} \in E\right\}S(h,ℓ,t)′={(h′,ℓ,t)∣h′∈E}∪{(h,ℓ,t′)∣t′∈E}表示负样本三元组，构造的方法是将S中每个三元组的头实体、关系和尾实体其中之一随机替换成其他的实体或关系，注意每个三元组只能同时替换一个元素。
margin-based loss：为了增强知识表示的区分能力，采用了最大间隔的方法，可以类比SVR的损失函数。d ( h + ℓ , t ) d(\boldsymbol{h}+\ell, \boldsymbol{t})d(h+ℓ,t)表示正样本的不相似得分，d ( h ′ + ℓ , t ′ ) d\left(\boldsymbol{h}^{\prime}+\ell, \boldsymbol{t}^{\prime}\right)d(h′+ℓ,t′)表示负样本的不相识得分，最小化这个损失函数可以使得正样本的得分越来越高而负样本的得分越来越低，并且只有两个得分差距大于某一阈值的时候loss才为0。

最终模型整体的训练过程如下：

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

虽然TransE简单有效，但仍然存在一个非常严重的问题：不能很好处理复杂关系。举个栗子，有两个三元组(美国，总统，奥巴马)和(美国，总统，布什)，使用TransE模型表示的话会得到奥巴马和布什的表示向量非常接近，甚至完全相同。

Code Here

TransHKnowledge Graph Embedding by Translating on Hyperplanes(AAAI2014)

相对于之前的知识表示模型，TransE有了很大的改进，但是当面对自反关系、一对多、多对一以及多对多这类复杂的关系时，就很难处理好（会使得一些不同的实体具有相同或者相近的向量表示）。于是作者提出TransH模型，在保证模型complexity和efficiency的同时，解决上述复杂关系的表示。

模型

TransH模型的主要思想是对每一个关系定义两个向量：超平面w r w_{r}wr和关系向量d r d_{r}dr。对于任意一个三元组( h , r , t ) (h, r, t)(h,r,t)，h hh和t tt在超平面上的投影分别为h ⊥ h_{\perp}h⊥和t ⊥ t_{\perp}t⊥，如果是golden triplet，则存在h ⊥ + d r ≈ t ⊥ h_{\perp}+d_{r} \approx t_{\perp}h⊥+dr≈t⊥。看下图可能会更清楚一些：

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

损失函数与TransE的一样：L = ∑ ( h , r , t ) ∈ Δ ( h ′ , r ′ , t ′ ) ∈ Δ ( h , r , t ) ′ [ f r ( h , t ) + γ − f r ′ ( h ′ , t ′ ) ] + \mathcal{L}=\sum_{(h, r, t) \in \Delta\left(h^{\prime}, r^{\prime}, t^{\prime}\right) \in \Delta_{(h, r, t)}^{\prime}}\left[f_{r}(\mathbf{h}, \mathbf{t})+\gamma-f_{r^{\prime}}\left(\mathbf{h}^{\prime}, \mathbf{t}^{\prime}\right)\right]_{+}L=(h,r,t)∈Δ(h′,r′,t′)∈Δ(h,r,t)′∑[fr(h,t)+γ−fr′(h′,t′)]+f r ( h , t ) = ∥ ( h − w r ⊤ h w r ) + d r − ( t − w r ⊤ t w r ) ∥ 2 2 f_{r}(\mathbf{h}, \mathbf{t})=\left\|\left(\mathbf{h}-\mathbf{w}_{r}^{\top} \mathbf{h} \mathbf{w}_{r}\right)+\mathbf{d}_{r}-\left(\mathbf{t}-\mathbf{w}_{r}^{\top} \mathbf{t} \mathbf{w}_{r}\right)\right\|_{2}^{2}fr(h,t)=∥∥(h−wr⊤hwr)+dr−(t−wr⊤twr)∥∥22h ⊥ = h − w r ⊤ h w r , t ⊥ = t − w r ⊤ t w r \mathbf{h}_{\perp}=\mathbf{h}-\mathbf{w}_{r}^{\top} \mathbf{h} \mathbf{w}_{r}, \quad \mathbf{t}_{\perp}=\mathbf{t}-\mathbf{w}_{r}^{\top} \mathbf{t} \mathbf{w}_{r}h⊥=h−wr⊤hwr,t⊥=t−wr⊤twr模型整体训练过程也同TransE一样，这里就不再赘述。

负采样策略

不同于TransE模型中的随机替换头实体和尾实体之一作为负样本的方法，在TransH中指出：

However, as a real knowledge graph is often far from completed, this way of randomly sampling may introduce many false negative labels into training.

于是，在替换头实体或者尾实体的时候考虑了一个采样概率，t p h t p h + h p t \frac{t p h}{t p h+h p t}tph+hpttph的概率替换头实体，h p t t p h + h p t \frac{h p t}{t p h+h p t}tph+hpthpt的概率替换尾实体，其中t p h tphtph为每个头实体对应尾实体的平均数量，h p t hpthpt为每个尾实体对应头实体的平均数量。也就是说，对于一对多的关系，更大的概率替换头实体；对于多对一的关系，更大概率替换尾实体。

Code Here

TransR Learning Entity and Relation Embeddings for Knowledge Graph Completion(AAAI2015)

前面介绍的TransE和TransH都是假设三元组的实体和关系在同一语义空间中的，尽管在TransH中采用了关系超平面的策略，但由于实体和关系是完全不同的，每一个实体可能会有多个aspect，即是是同一个实体在不同的关系下关注的可能是完全不相关的aspect，因此之前的模型还是不足以准确地表示knowledge graph。

于是，在本文中作者提出一种新模型TransR，其思想就是将实体和关系的表示空间区分开来，实体有entity space，关系有relation space，在计算时通过一个投射矩阵M r M_{r}Mr将实体映射到关系空间进行计算。投影过程： h r = h M r , t r = t M r 投影过程：\mathbf{h}_{r}=\mathbf{h} \mathbf{M}_{r}, \quad \mathbf{t}_{r}=\mathbf{t} \mathbf{M}_{r}投影过程：hr=hMr,tr=tMr打分函数： f r ( h , t ) = ∥ h r + r − t r ∥ 2 2 打分函数： f_{r}(h, t)=\left\|\mathbf{h}_{r}+\mathbf{r}-\mathbf{t}_{r}\right\|_{2}^{2}打分函数：fr(h,t)=∥hr+r−tr∥22损失函数： L = ∑ ( h , r , t ) ∈ S ( h ′ , r , t ′ ) ∈ S ′ max ⁡ ( 0 , f r ( h , t ) + γ − f r ( h ′ , t ′ ) ) 损失函数：L=\sum_{(h, r, t) \in S\left(h^{\prime}, r, t^{\prime}\right) \in S^{\prime}} \max \left(0, f_{r}(h, t)+\gamma-f_{r}\left(h^{\prime}, t^{\prime}\right)\right)损失函数：L=(h,r,t)∈S(h′,r,t′)∈S′∑max(0,fr(h,t)+γ−fr(h′,t′))

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

此外，不仅仅实体有多个aspect，对于关系，也可能存在多义性，比如关系（location location contains）其实包含country-city、country-university、continent-country等多种含义。为此，作者们提出CTransR，即Cluster-based TransR，对同一关系下的不同实体对进行聚类并学习到关系在不同聚类簇的表示。具体做法是

利用TransE训练( h , r , t ) (h, r, t)(h,r,t)三元组
利用vector offset ( h − t ) (h-t)(h−t)进行聚类
对每一类的子关系都学习到一个变换矩阵M r M_{r}Mr和表示向量r c r_{c}rcf r ( h , t ) = ∥ h r , c + r c − t r , c ∥ 2 2 + α ∥ r c − r ∥ 2 2 f_{r}(h, t)=\left\|\mathbf{h}_{r, c}+\mathbf{r}_{c}-\mathbf{t}_{r, c}\right\|_{2}^{2}+\alpha\left\|\mathbf{r}_{c}-\mathbf{r}\right\|_{2}^{2}fr(h,t)=∥hr,c+rc−tr,c∥22+α∥rc−r∥22

Code Here

TransDKnowledge graph embedding via dynamic mapping matrix(ACL2015)

文章首先指出了TransR的三个问题：

在TransR中，对于特定关系，所有实体共享同一映射矩阵。但是实际情况头尾实体可能属于不同范畴，例如(美国，总统，特朗普)这个三元组中，美国和特朗普就不是相同范畴的实体，因此应该采用不同的映射矩阵；
投影运算是实体与关系的交互过程，映射矩阵仅由关系确定是不合理的；
矩阵向量乘法运算量大，当关系数大时，矩阵向量乘法的参数也比TransE和TransH多。

基于此，作者们提出一种基于动态映射矩阵的TransD模型。对于每个三元组( h , r , t ) (h, r, t)(h,r,t)，其中每个元素都有两种向量表示，一种是构建动态映射矩阵向量( h p , r p , t p ) (h_{p}, r_{p}, t_{p})(hp,rp,tp)；另外一种是用于自身实体/关系语义表示( h , r , t ) (\bold h, \bold r, \bold t)(h,r,t)。首先是利用头尾实体的映射向量构建映射矩阵：M r h = r p h p ⊤ + I m × n M r t = r p t p ⊤ + I m × n

MrhMrt=rphp⊤+Im×n=rptp⊤+Im×n接着通过各自的映射矩阵将实体投影到关系空间：h ⊥ = M r h h , t ⊥ = M r t t \mathbf{h}_{\perp}=\mathbf{M}_{r h} \mathbf{h}, \quad \mathbf{t}_{\perp}=\mathbf{M}_{r t} \mathbf{t}h⊥=Mrhh,t⊥=Mrtt整体的打分函数和损失函数以及训练过程都跟之前的模型一样。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

Code Here

TranSparse Knowledge Graph Completion with Adaptive Sparse Transfer Matrix(AAAI2016)

之前的Trans系列模型都忽略了知识表示面临的两个问题：

异构性(heterogeneous)：不同关系连接的实体对数量差别巨大
不平衡性(imbalanced)：同一关系链接的头实体和尾实体数量差别巨大，例如对于关系性别，头实体的数量很多（‘小明’‘小花’etc），而对于尾实体仅仅只有两个（‘男’‘女’）

登录/注册后看高清大图

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png (52.79 KB, 下载次数: 11)

下载附件保存到相册

2023-3-29 12:34 上传

如果使用同一模型来处理所有情况的话，则可能由于异构性导致对于复杂关系（链接数量多）欠拟合，对简单关系（链接数量少）过拟合。为了解决异构性，作者提出TranSparse模型用自适应的稀疏矩阵代替一般的映射矩阵。

TranSparse(share)

为了解决异构性问题，TranSparse将transfer matrix设置为自适应的稀疏矩阵，对于复杂关系，我们需要更多的参数去学习其中包含的信息，所以transfer matrix的稀疏度会比较低，即有更多的元素不为0；而对于简单的关系则恰好相反。而这里稀疏度由θ r \theta_{r}θr定义：θ r = 1 − ( 1 − θ min ⁡ ) N r / N r ∗ \theta_{r}=1-\left(1-\theta_{\min }\right) N_{r} / N_{r^{*}}θr=1−(1−θmin)Nr/Nr∗其中，θ m i n \theta_{min}θmin是一个0-1之间的最小稀疏度超参，N r N_{r}Nr表示关系r rr链接的实体对数量，N r ∗ N_{r^{*}}Nr∗表示其中链接的最大值。

TranSparse(share)这里没有考虑不平衡性，所以对于头尾实体的mapping过程是一样的：h p = M r ( θ r ) h , t p = M r ( θ r ) t \mathbf{h}_{p}=\mathbf{M}_{r}\left(\theta_{r}\right) \mathbf{h}, \quad \mathbf{t}_{p}=\mathbf{M}_{r}\left(\theta_{r}\right) \mathbf{t}hp=Mr(θr)h,tp=Mr(θr)t

TranSparse(separate)

为了解决不平衡性问题，这里更细致地对头实体和尾实体设置了不同的transfer matrix：θ r l = 1 − ( 1 − θ min ⁡ ) N r l / N r ∗ l ∗ ( l = h , t ) \theta_{r}^{l}=1-\left(1-\theta_{\min }\right) N_{r}^{l} / N_{r^{*}}^{l^{*}} \quad(l=h, t)θrl=1−(1−θmin)Nrl/Nr∗l∗(l=h,t)h p = M r h ( θ r h ) h , t p = M r t ( θ r t ) t \mathbf{h}_{p}=\mathbf{M}_{r}^{h}\left(\theta_{r}^{h}\right) \mathbf{h}, \quad \mathbf{t}_{p}=\mathbf{M}_{r}^{t}\left(\theta_{r}^{t}\right) \mathbf{t}hp=Mrh(θrh)h,tp=Mrt(θrt)t

模型训练

两者（share和separate）的打分函数都是：f r ( h , t ) = ∥ h p + r − t p ∥ ℓ 1 / 2 2 f_{r}(\mathbf{h}, \mathbf{t})=\left\|\mathbf{h}_{p}+\mathbf{r}-\mathbf{t}_{p}\right\|_{\ell_{1 / 2}}^{2}fr(h,t)=∥hp+r−tp∥ℓ1/22L = ∑ ( h , r , t ) ∈ Δ ( h ′ , r , t ) ∈ Δ ′ [ γ + f r ( h , t ) − f r ( h ′ , t ′ ) ] + L=\sum_{(h, r, t) \in \Delta\left(h^{\prime}, r, t\right) \in \Delta^{\prime}}\left[\gamma+f_{r}(\mathbf{h}, \mathbf{t})-f_{r}\left(\mathbf{h}^{\prime}, \mathbf{t}^{\prime}\right)\right]_{+}L=(h,r,t)∈Δ(h′,r,t)∈Δ′∑[γ+fr(h,t)−fr(h′,t′)]+

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

Code Here

TransM Transition-based knowledge graph embedding with relational mapping properties(2014)

TransM也是为了解决TransE只能处理一对一关系的问题，对于存在多种选择的一方给了更多的自由度，即h + r ≈ t h+r \approx th+r≈t，如下图

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

具体做法是在得分函数的前面加上了权重w r w_{r}wrw r = 1 log ⁡ ( h r p t r + t r p h r ) w_{r}=\frac{1}{\log \left(h_{r} p t_{r}+t_{r} p h_{r}\right)}wr=log(hrptr+trphr)1其中h r p t r h_{r}pt_{r}hrptr表示尾实体对应的头实体数量(heads per tail)，t r p h r t_{r}ph_{r}trphr同理。打分函数： f r ( h , t ) = w r ∥ h + r − t ∥ L 1 / L 2 打分函数： f_{r}(h, t)=w_{\mathbf{r}}\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|_{L_{1} / L_{2}}打分函数：fr(h,t)=wr∥h+r−t∥L1/L2

ManiFoldE From One Point to A Manifold: Knowledge Graph Embedding For Precise Link Prediction(IJCAI2016)

作者指出目前已有的研究都无法很好地解决精准链接预测(Precise Link Prediction)，主要是有两个问题：

ill-posed algebraic problem：指一个方程组中的方程式个数远大于变量个数，这会导致求得的解经常是不精确且不稳定的。之前的翻译模型都是基于h r + r = t r \mathbf{h}_{\mathbf{r}}+\mathbf{r}=\mathbf{t}_{\mathbf{r}}hr+r=tr，如果三元组的数量为T TT，embedding的维度为d dd，则一共有T ∗ d T*dT∗d个方程，而所需要学习的变量一共有( E + R ) ∗ D (E+R)*D(E+R)∗D个，由于T > > ( E + R ) T>>(E+R)T>>(E+R)，那么这类模型由于ill-posed algebraic problem无法给出精准链接预测；
adopting an overstrict geometric form：TransE过于严格的限制使得链接预测得到的基本都为一个点，这对于多对多关系显然是不正确的。虽然在之前有TransH， TransR等模型对此进行优化，但是将关系映射到另外一个子空间后仍然会存在该问题。

为了解决上述两个问题，作者提出一种基于流形的模型，将约束h r + r = t r \mathbf{h}_{\mathbf{r}}+\mathbf{r}=\mathbf{t}_{\mathbf{r}}hr+r=tr进行放宽M ( h , r , t ) = D r 2 \mathcal{M}(\mathbf{h}, \mathbf{r}, \mathbf{t})=D_{r}^{2}M(h,r,t)=Dr2其中M \mathcal{M}M是流形函数M ( h , r , t ) = ∥ h + r − t ∥ l 2 M(h, r, t)=\|h+r-t\|_{l 2}M(h,r,t)=∥h+r−t∥l2以( h , r , ∗ ) (h, r, *)(h,r,∗)为例，所有合适的尾实体都分布在高维流形上，举个栗子，M \mathcal{M}M是一个高维球体，则所有的尾实体都在以h + t h+th+t为球心，以D r D_{r}Dr为半径的球面上。

打分函数： f ( h , r , t ) = ∥ M ( h , r , t ) − D r 2 ∥ l 1 / 2 打分函数：f(h, r, t)=\left\|M(h, r, t)-D_{r}^{2}\right\|_{l 1 / 2}打分函数：f(h,r,t)=∥∥M(h,r,t)−Dr2∥∥l1/2目标函数： L = ∑ ( h , r , t ) ∑ ( h ′ , r ′ , t ′ ) ∈ Δ ′ [ f r ′ ( h ′ , t ′ ) − f r ( h , t ) + γ ] + 目标函数：\mathcal{L}=\sum_{(h, r, t)} \sum_{\left(h^{\prime}, r^{\prime}, t^{\prime}\right) \in \Delta^{\prime}}\left[f_{r}^{\prime}\left(h^{\prime}, t^{\prime}\right)-f_{r}(h, t)+\gamma\right]_{+}目标函数：L=(h,r,t)∑(h′,r′,t′)∈Δ′∑[fr′(h′,t′)−fr(h,t)+γ]+

Code Here

TransF Knowledge Graph Embedding by Flexible Translation(2016)

TransF提出主要是为了解决TransE的一对一关系问题，虽然在之前有TransH提出解决思路，但是引入了更多的参数以及更大的复杂度。于是TransF就是为了解决一对多多对一以及多对多关系，同时又不增加参数。具体就是将TransE的限制条件h + r ≈ t \mathbf{h}+\mathbf{r} \approx \mathbf{t}h+r≈t放宽为h + r ≈ α t \mathbf{h}+\mathbf{r} \approx \alpha \mathbf{t}h+r≈αt，如下图

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70.png

登录/注册后看高清大图

得分函数同时衡量了h + t h+th+t和t tt，t − h t-ht−h和h hh的方向：f ( h , r , t ) = ( h + r ) T t + ( t − r ) T h f(h, r, t)=(h+r)^{T} t+(t-r)^{T} hf(h,r,t)=(h+r)Tt+(t−r)Th

TransA TransA: An Adaptive Approach for Knowledge Graph Embedding(2015)

作者首先提出了两个TransE模型的不足：

loss metric：TransE的loss metric为∥ h + r − t ∥ 2 2 \|\mathbf{h}+\mathbf{r}-\mathbf{t}\|_{2}^{2}∥h+r−t∥22，是一种欧氏距离的计算，其对应的图形是一个圆。由于这种简单的loss metric导致不能很好处理复杂的关系（如一对多、多对一等）。论文中给出一个详细案例，从下图可知蓝色部分为正例，红色部分为负例，TransE 模型划分错了七个点。而本文提出了一种基于马氏距离的 TransA 模型，其 PCA 降维图形对应的是一个椭圆，该模型只分错了三个点。

登录/注册后看高清大图

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png (47.64 KB, 下载次数: 7)

下载附件保存到相册

2023-3-29 12:34 上传
identical dimension：TransE等之前的模型等价地对待向量中的每一维度，但是实际上各个维度的重要度是不相同的，有些维度是有作用的，有些维度却是噪音。还是以论文中的栗子，对于关系HasPart来说，左边的TransE模型根据欧氏距离计算得出(room, haspart, goniff)这样错误的三元组。通过对x，y轴进行分解之后发现，关系HasPart会更关注与x轴相近的实体。TransA模型为此引入了对每一维度的加权矩阵。

登录/注册后看高清大图

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png (60.8 KB, 下载次数: 7)

下载附件保存到相册

2023-3-29 12:34 上传

模型

TransA模型对之前的打分函数进行了改进，引入加权矩阵W r W_{r}Wr：f r ( h , t ) = ( ∣ h + r − t ∣ ) ⊤ W r ( ∣ h + r − t ∣ ) f_{r}(h, t)=(|\mathbf{h}+\mathbf{r}-\mathbf{t}|)^{\top} \mathbf{W}_{\mathbf{r}}(|\mathbf{h}+\mathbf{r}-\mathbf{t}|)fr(h,t)=(∣h+r−t∣)⊤Wr(∣h+r−t∣)并通过LDL对W r W_{r}Wr进行分解：W r = L r ⊤ D r L r \mathbf{W}_{\mathbf{r}}=\mathbf{L}_{\mathbf{r}}^{\top} \mathbf{D}_{\mathbf{r}} \mathbf{L}_{\mathbf{r}}Wr=Lr⊤DrLr整理后得到最终的打分函数：f r = ( L r ∣ h + r − t ∣ ) ⊤ D r ( L r ∣ h + r − t ∣ ) f_{r}=\left(\mathbf{L}_{\mathbf{r}}|\mathbf{h}+\mathbf{r}-\mathbf{t}|\right)^{\top} \mathbf{D}_{\mathbf{r}}\left(\mathbf{L}_{\mathbf{r}}|\mathbf{h}+\mathbf{r}-\mathbf{t}|\right)fr=(Lr∣h+r−t∣)⊤Dr(Lr∣h+r−t∣)训练过程损失函数min ⁡ ∑ ( h , r , t ) ∈ Δ ( h ′ , r ′ , t ′ ) ∈ Δ ′ [ f r ( h , t ) + γ − f r ′ ( h ′ , t ′ ) ] + + λ ( ∑ r ∈ R ∥ W r ∥ F 2 ) + C ( ∑ e ∈ E ∥ e ∥ 2 2 + ∑ r ∈ R ∥ r ∥ 2 2 ) s.t. [ W r ] i j ≥ 0

min s.t. (h,r,t)∈Δ(h′,r′,t′)∈Δ′∑[fr(h,t)+γ−fr′(h′,t′)]++λ(r∈R∑∥Wr∥F2)+C(e∈E∑∥e∥22+r∈R∑∥r∥22)[Wr]ij≥0

KG2E Learning to Represent Knowledge Graphs with Gaussian Embedding(2015)

作者指出TransE、TransR等之前的研究，在分离正三元组及其对应的负三元组时，不同的实体和关系往往共享相同的边界，而知识库中实体和关系的**（非）确定性**被完全忽略。但实际上，不同的实体和关系常常包含不同的确定性。在这里，一个实体/关系的（非）确定性表示在将一个三元组作为上下文评分时表示其语义的可信度。举个栗子，在推断一个人时，配偶关系的确定性明显大于国籍。在预测Hillary Clinton时，当我们知道她丈夫（配偶）是Bill Clinton时，我们可能更有信心知道她是谁，而不是知道她出生在（国籍）美国。

为此，本文使用Gaussian Distribution 来表示实体和关系，使用协方差来表示实体和关系的不确定度。相同颜色的圆圈代表同意三元组，圆圈大小则表示不同三元组的不确定度。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

相对于之前的point-based model，本文的KG2E是一种density-based model。在建模过程中强调了(un)certainty的概念，融入关系和实体语义本身的不确定性并使用高斯分布协方差表示实体关系的不确定度，使用高斯分布的均值表示实体或关系在语义空间中的中心值。但是KG2E在link prediction任务中的多对多关系上表现不是很好，主要原因是模型没有考虑实体和关系的类型和粒度。

TransG TransG : A Generative Model for Knowledge Graph Embedding(2016)

本文主要是为了解决多关系语义（multiple relation semantics），即某一种关系可能会存在多个类别的语义，比如对于(Atlantics, HasPart, NewYorkBay)和(Table, HasPart, Leg)两个三元组都属于关系HasPart，但是他们在语义上并不相同，一个是位置的语义，一个是部件的语义。其实这个问题在之前介绍的CTransR中也提出过解决方案，但是作者似乎认为CTransR预处理聚类的操作不是很elegant。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

为此，作者们提出了一种基于贝叶斯非参的无限混和嵌入模型：认为关系向量由若干子成分向量合成，模型会根据实体对自动选择一个关系向量，而多少个这样的关系向量还可以由模型自动选择。整体过程如下：

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70#pic_center.png

登录/注册后看高清大图

一张总结

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0thaXl1YW5fc2p0dQ==,size_16,color_FFFFFF,t_70.png

登录/注册后看高清大图

以上2019.10.08

收藏0 分享

相关帖子

手机电脑维修培训，碎片化时间学习，精心录制的教学视频

回复

使用道具举报

头像被屏蔽

2^#

发表于 2023-3-29 12:55:14 | 只看该作者来自：湖南来自湖南

【浙江大学】一个开源的知识图谱表示学习框架一、NeuralKG：一个开源的知识图谱表示学习框架

登录/注册后看高清大图

登录/注册后看高清大图

OpenKG地址：openkg.cn/tool/neuralkg

GitHub地址：github.com/zjukg/neuralkg

Gitee地址：gitee.com/openkg/neuralkg

NeuralKG官网：neuralkg.zjukg.org

论文地址：arxiv.org/pdf/2202.12571.pdf

开放许可协议：Apache License 2.0

贡献者：浙江大学（张文，陈湘楠，姚祯，陈名杨，朱渝珊，俞洪涛，黄雨峰，许泽众，徐雅静，叶鹏，张溢弛，张宁豫，郑国轴，陈华钧）

1、NeuralKG简介

知识图谱（KG）以（头实体、关系、尾实体）的形式将现实世界的事实表示为符号三元组，例如，（地球，包含在，太阳系统）。目前，许多大规模的知识图谱已被提出，如YAGO、Freebase、NELL和Wikidata。它们作为背景知识的提供者被广泛用于自然语言理解、推荐系统、问题回答等任务中。

传统的对KG的查询和推理是基于对符号表征的操作完成的，这很容易受到知识图谱中的噪声和自身不完全性的影响。因此，随着深度学习的发展，对知识图谱的表示学习（KGE）得到了广泛的探索，目的是将知识图谱嵌入到一个低维向量空间中，同时保留其中包含的结构和语义信息。

NeuralKG是一个用于知识图谱的多样化神经网络开源库，旨在为知识图谱应用提供向量空间的表示学习工具。和其他已有的知识图谱表示学习开源工具相比，它支持三个系列的KGEs的开发和设计，包括基于向量空间假设的传统C-KGEs，基于图神经网络的GNN-based KGEs，和基于规则的Rule-based KGEs。

介绍NeuralKG的论文发表于国际信息获取会议SIGIR2022。

2、NeuralKG工具概览

NeuralKG工具包整体基于PyTorch Lightning框架，提供了用于多种知识图谱表示学习模型的通用工作流程，并且高度模块化。NeuralKG具有如下特性：

支持多种方法。 NeuralKG提供了对三类知识图谱嵌入方法的代码实现，包括传统知识图谱嵌入,基于图神经网络的知识图谱嵌入,以及基于规则的知识图谱嵌入。
方便快速的客制化。NeuralKG对知识图谱表示学习模型进行了细化的模块解耦，以方便使用者快速定制自己的模型，其中包括知识图谱数据处理模块，负采样模块，超参数监控模块，训练模块以及模型验证模块。这些模块被广泛应用于不同的知识图谱嵌入模型中。
长期技术支持。NeuralKG的核心开发团队将提供长期的技术支持，同时我们也欢迎开发者们对本项目进行pull requests。

NeuralKG总体架构图如下：

登录/注册后看高清大图

NeuralKG1.0 包含的模型有：

[td]

类别	模型
传统知识图谱嵌入（KGEModel）	TransE, TransH, TransR, ComplEx, DistMult, RotatE, ConvE, BoxE, CrossE, SimplE
基于图神经网络的知识图谱嵌入（GNNModel）	RGCN, KBAT, CompGCN, XTransE
基于规则的知识图谱嵌入（RuleModel）	ComplEx-NNE+AER, RUGE, IterE

3、NeuralKG快速上手

下载安装：

登录/注册后看高清大图

使用样例：

登录/注册后看高清大图

训练过程可修改yaml文件进行中的超参设置和搜索：

登录/注册后看高清大图

4、NeuralKG测试效果

【浙江大学】一个开源的知识图谱表示学习框架

文章知识点与官方知识档案匹配，可进一步学习相关知识
Python入门技能树人工智能自然语言处理261142 人正在系统学习中

海量手机|电脑|平板|显卡|无人机|游戏机|汽车电路板等原创点位图

回复支持反对

使用道具举报

头像被屏蔽

3^#

发表于 2023-3-29 13:02:13 | 只看该作者来自：湖南来自湖南

本帖最后由 lovetvb 于 2023-3-29 13:09 编辑

小米在知识表示学习的探索与实践

转载公众号 | DataFunTalk

登录/注册后看高清大图

导读：知识表示是知识获取与应用的基础，贯穿了小米知识图谱的构建与应用。本文将结合小米知识图谱的构建及小爱问答场景，介绍融合文本和知识图谱的知识表示学习方法，以及知识表示在知识图谱补全、实体链接、实体推荐等任务的落地。主要围绕以下3点展开：

业务介绍，小米知识图谱的架构和业务；
算法介绍，融合文本和知识图谱的表示学习方法；
算法应用，知识表示学习在实体链接、实体推荐、知识补全的应用；

01业务介绍1. 小米知识图谱团队

登录/注册后看高清大图

小米知识图谱团队，旨在硏究知识图谱在开放领域和行业领域的构建和应用技术，把知识图谱推广到相关的业务场景上。目前团队已经构建了大规模、高质量的知识图谱，提供了实体检索、实体链接、概念图谱等服务，并且服务于小爱同学、小米网、小米信息流等业务方。

2. 知识图谱为小爱赋能

登录/注册后看高清大图

这是一个知识图谱为小爱赋能的例子。当用户询问巩俐籍贯的时候，我们从库中给出相应的答案，与巩俐相关的实体信息。下面简单介绍一下处理流程。

登录/注册后看高清大图

当用户询问一个问题（query）时，比如说问题是“武汉大学周边有什么好吃的？”，它的解答流程就是：

① 首先语言识别出这句话的文本内容；

② 然后通过分析发现用户的意图是想询问“美食”相关的事物；

③ 接着通过实体匹配去进行核心实体的识别，实体的歧义性消除以及属性的归一等处理，确定用户询问的是全国重点大学“武汉大学”这个实体的“周边美食”这个属性；

④ 据此从库中查询相应的结果，并且作为输出；

⑤ 另外我们还会针对该实体做实体的推荐，以此实现相似问题的推荐；

02算法介绍

登录/注册后看高清大图

知识表示学习是指基于分布式的表示思想，将实体或者是关系的语义信息映射到低维、稠密、实值的向量空间中，使得语义相似的两个对象之间的距离也很相近。

最常见的表示学习方法是融合事实信息的方法，比如基于翻译、张量分解、神经网络和图神经网络的各种模型。但是这些模型并不善于处理大规模知识图谱中存在实体与关系长尾分布的问题。在图谱中，长尾分布体现为很多实体数量极少甚至没有关系事实，这就导致数据存在很严重的稀疏性。

对于这些长尾的实体和关系，在没有或者很少关系的情况下，仅基于传统的事实三元组（头部，关系，尾部）进行学习，是没有办法得到的。对此大佬们尝试了各种五花八门的解决办法，最简单直接的就是：

① 利用知识库中其他的信息，比如说文本描述信息、信息实体类型、关键路径、逻辑规则等，还包括实体的属性、时序信息、图结构等；

② 利用知识库外的海量信息，比如说互联网等，包含大量知识库实体和关系的有关的信息。

1. 融合文本描述的优势

登录/注册后看高清大图

融合文本描述的优势有哪些？

发掘实体之间的语义相关性，精确的语义表述能够提升三元组的可区分性。在上面的例子中我们可以看到{撒贝宁，配偶，李白}，而李白的描述文本中就存在“撒贝宁妻子”这样的关键信息。该情境下，融合文本描述的语义信息能够帮助发掘更多的语义之间的相关性；
当一些实体对于现有的知识图谱来说是新的，并且仅仅带有描述性信息的时候，传统的知识图谱表示学习方法不能够表示这些新的实体，但是融入了文本描述的模型，就能够通过描述信息建立这些实体的表达。

文本描述如何构成呢？我们的处理方式是将实体的类型、文本描述和重要的三元组按照一定的规则进行拼接，构成一段文本，作为实体的描述文本，这段文本比简单的文本描述包含更多的信息。

2. 文本与知识图谱对齐

下面将会介绍两种经典的融合文本和知识图谱的知识表示学习方法，这两种方法都可以将实体向量、关系向量和词向量放到同一个语义空间下。为什么要把文本以及词向量放到一个空间中？因为如果我们遇到了需要同时处理文本和实体的任务，实体和文本中的词做内积等向量运算才会有意义，依靠这些运算方法我们就能比较实体和文本之间的词的关系。

登录/注册后看高清大图

这一篇文章描述了比较经典的文本与知识图谱对齐的模型Jointly（联合模型），作者先后发表了两篇论文来优化该方法。文章研究的内容是融合文本信息到知识图谱中，实现知识图谱中的实体和实体描述文本联合嵌入表示。对齐模型的关键在于将实体向量、关系向量和词向量表示在同一个语义空间下。要求实体的表示向量不仅满足知识图谱的结构化约束，同时也要被文本描述中的词向量进行约束。模型一共分为三个部分：

文本嵌入：采用skip-gram模型，利用欧式距离衡量两个单词之间的相似性，训练词与词之间的约束；
知识嵌入：采用Trans-E模型，训练实体与实体之间的约束；
对齐模型：利用文本描述对齐，训练实体和文本之间的约束，确保关系能够和文本的单词在同一个语义空间中。

登录/注册后看高清大图

第二篇论文也根据类似的原理，将基于平移的嵌入方法从特定的三元组嵌入扩展到了文本感知模型，提出了名为DKRL的模型。该模型的特点是：

对于事实元组论文采用了典型的Trans-E模型，通过最大似然值获得实体和关系的嵌入；
对于描述文本，论文使用了连续词袋模型和深度卷积模型对文本进行嵌入。连续词袋模型忽略了文本的词序，而卷积模型会考虑词序；
对每一个实体，DKRL都会学习语义的嵌入和结构的嵌入，再通过右侧的一系列公式进行拟合。

3. 需求和实现

登录/注册后看高清大图

后续任务需要通过预训练得到词向量，实体向量，并且保证两者之间需要能够计算相似度，同时也要保证实体向量和实体向量之间可以计算相似度。上文介绍的两个模型均可以满足该需求。右上的表格展示了几个不同的模型在链接预测任务上的效果，联合模型，即第一篇论文中的模型展现了较好的效果，于是我们基于该模型对实体和词进行了训练，得到了词向量、关系向量以及实体向量。该模型的效果具体体现在：

由图一（左上）可以看到“王者荣耀”这个词和“李白”的候选实体之间的相似度评分，该分数表明模型学习到了词和实体之间的关联；
由图二（右上）可以看到虽然“唐代诗人李白”的文本描述中不存在“将进酒”一词，但是模型也学到了其关联；
图三图四（左下和右下）显示，模型也学习到了实体向量与实体向量之间的关系，比如植物“小米”实体向量和水果“苹果”实体向量比较靠近，而“小米公司”的实体向量和“苹果公司”的实体向量比较靠近。

这些特性对完成后续的任务有很大的帮助。

03算法应用1. 实体链接

登录/注册后看高清大图

实体链接任务目标是把文本中的实体指称项，即实体名称，链接到知识库中对应的实体上。

举一个例子来帮助大家理解实体链接，比如问题“王者荣耀中的李白有哪些台词？”，为了解答这个问题我们需要：

① 识别句子中的核心实体“李白”；

② 从库中检索“李白”所有的候选实体；

③ 实体链接，从众多的候选实体中找到正确的实体，与句子中的“李白”进行关联；

实体链接的难点主要有两个方面：

实体会有不同的表达方式（mention），比如“青莲居士、李太白”，也对应了李白这个实体；
同一个表达方式也会对应不同的实体，比如说“王者荣耀中李白的技能是什么？”，“李白和杜甫并称为什么？”，这两句中实体的表达方式都是“李白”，但是对应了不同的实体。

登录/注册后看高清大图

左侧图中展示了实体链接的处理流程，这里详细介绍一下实体消歧部分。

实体消歧包括两个模块，第一个部分是粗排，第二个部分是精排。

关于粗排

为什么要做粗排处理？

在做候选实体生成时，我们希望从库中获取尽可能多的相关实体，确保没有遗漏正确实体。但这样做会导致消歧这一步骤被引入了太多的噪声，造成消歧效率的下降。所以需要粗排模型来降低候选实体的个数。经过实验，粗排后，消歧准确率提升了3%，预测的速度提升了50%，而召回率仅仅下降了0.4%。

举个例子，比如“王者荣耀中的李白有哪些台词？”这个问题，在我们的库中“王者荣耀”的候选实体有71个，“李白”的候选实体有59个。在粗排时，我们会为每一个候选实体进行打分，按照相关度从大到小进行排列，选择每一个mention所对应的最相似的n个实体(Top n)，作为精排的输入。

如何实现粗排？

登录/注册后看高清大图

粗排模型，要求高召回、高性能。我们采用了上一节中融合多元信息知识表示学习方法所训练得到的实体向量和词向量，因为他们处在同一个向量空间中，我们可以对其进行向量计算。定义了三个特征，分别是Context和Coherence以及LinkCount：

Context 表示mention的上下文特征，它通过候选实体向量和问题中的每一个词向量进行乘积运算得到，用于发现问题中哪些词和候选实体相关；
Coherence 表示实体的一致性，通过计算候选实体和问题中其他mention的候选实体相关性来实现；
LinkCount 表示实体的先验知识，通过标注数据而来。

利用一个多层感知机对这三个特征进行融合，最终得到每一个候选实体的粗排分数。排列并选择每一个mention所对应的最相似的Top n个实体，作为精排的输入。

关于精排

登录/注册后看高清大图

在粗排之后，每一个mention的候选实体个数被大大降低，此时我们会对这些实体进行精排处理。精排模型中，我们利用Bert构建一个句子对二分类模型，用来判断候选实体和问题中的mention相关度。具体流程如下：

① 该模型的输入是一个句子对，text_a是标记了mention位置的文本，text_b是候选实体的描述文本。句子对经过Bert编码之后取[CLS]向量，再经过全连接层，得到上下文特征；

② 合并粗排的三个特征进行全连接的融合训练；

③ 对候选实体进行二次排序；

④ 判断是否为未知实体；

⑤ 选择Top 1的实体作为mention链接的实体；

在模型训练时，我们对训练方法进行了一些优化。利用知识图谱中的关系三元组构建消歧的样本，关系三元组包括头实体、关系和尾实体，头实体和尾实体有多种表达方式（mention），利用这些不同的表达方式，我们可以去构建大量的正负样本，来帮助我们去学习mention和实体之间的语义特征关系。经过第一次的预训练，只需要再训练少量经过标注的线上数据，模型就可以达到较好的消歧效果。

2. 实体推荐

登录/注册后看高清大图

实体推荐任务的目标是根据给定的实体推荐一系列相关的实体，这两张图展示了我们的实体推荐的应用场景。我们对实体推荐的工作暂时还处于起步的阶段，并没有考虑复杂的个性化推荐，目前只关注实体之间的相似度。

左图展示了实体链接如何应用于智能问答问题推荐，问题通过SLU处理之后会得到其意图和主实体，然后借助实体推荐得到相关的实体，相关实体被用来构建相关的问题，比如说”武汉大学周边好吃的？“，识别到其主实体为”武汉大学“、核心意图为”美食“，以此推荐实体相关的问题，比如说”华中科技大学周边有什么好吃的？“，”清华大学周边有什么好吃的？“，”武汉科技大学周边有什么好吃的？“。同时实现了推荐意图相关的问题，比如说”武汉大学周边有什么好玩的？“，”武汉大学周边有什么景点？“，”武汉大学周边有什么酒店？“等等。

右图展示了实体推荐在图谱自动化构建平台上的应用，当用户搜索一个实体的时候，平台会为其推荐相关的实体。

登录/注册后看高清大图

实体推荐的难点在于“冷启动问题”，即如何去寻找实体的相关实体。

我们发现百科页面关系三元组以及新闻中的共现实体，都可以作为相关实体进行推荐。于是我们对百科页面知识图谱中的关系三元组和经过实体链接处理的新闻中的实体进行抽取，以类别为标准进行筛分，作为实体推荐模型的正样本。而负样本可以从库中的其他实体中抽取。

实体推荐模型分为两个部分，表示模型和匹配模型：

表示模型利用第二节中的DKRL模型进行知识表示学习。学习关系三元组中的结构化信息，编码部分使用Bert进行替换；
匹配模型利用DSSM模型，复用了表示模型中学习到的参数，将两个实体编码成向量，通过计算余弦相似度来去衡量两个实体之间的相关度。

3. 知识补全

登录/注册后看高清大图

在构建知识图谱时，需要从半结构化或者非结构化数据中抽取三元组，但这些三元组难免会存在信息缺失情况，比如左图中，小米代表人物中林斌、王翔等人，都缺失了超链接，撒贝宁配偶、父母、妹妹也都缺失了超链接，这就导致在构建知识图谱时，不能获取完整的关系三元组。

实体补全任务可以概括为：针对已知的头实体、关系和尾实体mention的情况下，关联库中的实体以补全三元组。我们的设计方案如下：

① 利用Schema去确定尾实体的类别；

② 通过尾实体的mention筛选得到尾实体的候选实体，构造三元组；

③ 通过三元组分类模型判断构造的三元组是否正确；

④ 经过对这些三元组的分数进行排序之后，选择Top 1且预测正确的三元组。

登录/注册后看高清大图

三元组的构建也考虑了描述实体的文本，我们再次利用了神通广大的BERT完成模型的构建，参考了KG-BERT这篇论文。

将已知的关系三元组如上图所示进行构造，text_a是头实体的描述文本，text_b是关系的文本名称，text_c是尾实体的描述文本，这些输入经过BERT的编码之后，再经过一个全连接层，计算得到语义特征，并和另外一个结构化的特征进行融合，最终得到一个分数。这里的“结构化特征”由蓝色框中的方程进行表示，整个模型的loss，可以用红色框中的方程表示。

举个例子，比如判断三元组{撒贝宁，配偶，李白}是否正确，“李白”的第一个候选实体是正确的，可以作为正样本，其他实体都是负样本，然后对模型进行训练，预测每一对自动构建的三元组的分数，按照从大到小的顺序进行排序，选择分数大于0.5且Top 1的三元组作为正确的三元组，补充到知识图谱当中。

04总结与展望

本文简单介绍了知识表示学习在实体链接、实体推荐和知识补全中的应用；和word2vec一样，通过知识表示学习得到的实体向量可以应用到很多场景中；工业界实用最重要，很多场景下，对模型的复杂性很敏感，选择模型需要综合考量。知识表示学习的探索之路还有很长，同志们加油！！！

参考文献

1. Wang Z, Zhang J, Feng J, et al. Knowledge graph and text jointly embedding[C] //Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1591-1601.

2. Zhong H, Zhang J, Wang Z, et al. Aligning knowledge and text embeddings by entity descriptions[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 267-272.

3. Xie R, Liu Z, Jia J, et al. Representation learning of knowledge graphs with entity descriptions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2016, 30(1).

4. Xiao H, Huang M, Meng L, et al. SSP: semantic space projection for knowledge graph embedding with text descriptions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2017, 31(1).

5. Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.

6. Yao L, Mao C, Luo Y. KG-BERT: BERT for knowledge graph completion[J]. arXiv preprint arXiv:1909.03193, 2019.

7. 刘知远, 孙茂松, 林衍凯, 等. 知识表示学习研究进展[J]. 计算机研究与发展, 2016, 53(2): 247.

今天的分享就到这里，谢谢大家。

分享嘉宾：

登录/注册后看高清大图

峰会推荐：

7月10日，DataFun将举办自然语言处理峰会，届时将邀请包括来自小米等公司的多位重量级嘉宾，就NLP的基础技术、语义表示与计算、多模理解与生成、信息抽取与检索、人机对话与交互、产业创新与实践、机器翻译与同传等话题进行深度分享，欢迎小伙伴们识别二维码，了解详情，并报名参与，本次峰会将全程直播！

登录/注册后看高清大图

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

4642f8347a8c95e4b115df5d05bff545.png.jpg

登录/注册后看高清大图

点击阅读原文，进入 OpenKG 网站。

Smart Phone and laptop schematic,Boardview, free trial.

回复支持反对

使用道具举报

头像被屏蔽

4^#

发表于 2023-3-29 13:02:43 | 只看该作者来自：湖南来自湖南

↑↑↑关注后"星标"Datawhale
每日干货 & 每月组队学习，不错过 Datawhale分享
主题：知识图谱，前沿技术与应用

8f909a762f7f04fedbb6336f33aea296.webp.jpg

登录/注册后看高清大图

长按上图或点击『阅读原文』免费报名随着人工智能技术的发展与应用，知识图谱作为AI进步的阶梯越来越受到学术界和产业界的重视，并且已经在很多领域、场景中体现出自身的价值。从最初的互联网搜索、推荐、问答等ToC场景，逐渐进入到垂直行业ToB的应用当中。然而，场景的变化对知识图谱技术的发展与应用也提出了新的挑战与机遇。繁杂多变的行业场景，复杂专业的知识表示，行业低资源的知识获取，深度决策的知识应用等，对知识图谱的技术提出更多新的要求。2021年03月27日，第一届DataFunSummit：知识图谱在线峰会来啦！将邀请3位主席，8位出品人，40余位知名学者与一线技术专家出席本次峰会，共话『知识图谱前沿技术与热门应用』。▌知识图谱在线峰会报名，现已全面启动本届在线峰会现已全面开放免费报名，知识图谱与人工智能领域不容错过的业内分享，3月27日与你一同见证。

1120266d8125d5d2ce561460348bd96c.webp.jpg

登录/注册后看高清大图

▌到底有哪些干货？具体时间是？

DataFunSummit：知识图谱在线峰会
峰会时间	03月27日(周六)，09:00-18:00
名誉主席	肖仰华复旦大学教授、博士生导师
峰会主席	彭卫华百度知识图谱部主任架构师袁晶华为云人工智能领域副总裁
活动主办	DataFun
钻石合作	百度、华为云、熵简科技
合作伙伴	知识工场、开放知识图谱、阿里小蜜、小米、平安科技
合作社区	人工智能遇上知识图谱
详细日程
论坛名称	知识表示与推理论坛
论坛时间	03月27日，09:00-13:00
论坛出品	王泉博士百度资深工程师
分享时间	分享内容
09:00-09:40	知识增强图语义理解技术百度资深研发工程师黄正杰
09:40-10:20	属性对齐和归因在商品企划中的应用阿里巴巴高级算法工程师张涛
10:20-11:00	实体对齐算法在电商领域当中的实践和应用京东算法专家赵学敏博士
11:00-11:40	知识表征在测井综合解释中的应用华为技术专家吴杰文博士
11:40-12:20	基于电商常识图谱的知识表示与应用阿里巴巴高级算法工程师骆徐圣
12:20-13:00	小米在知识表示学习方向的探索与实践小米算法工程师吕荣荣

论坛名称	知识获取论坛
论坛时间	03月27日，09:00-12:20
论坛出品	户保田博士哈工大深圳助理教授
分享时间	分享内容
09:00-09:40	事件抽取与事件图谱构建中国科学院自动化研究所副研究员陈玉博博士
09:40-10:20	“神经+符号”学习与多模态知识发现东南大学助理教授王萌博士
10:20-11:00	开放式知识图谱的自动构建技术哈尔滨工业大学教授/博士生导师刘铭博士
11:00-11:40	知识图谱的构建与互联网场景下的应用腾讯科技（微信事业群）高级应用研究员单子非
11:40-12:20	复杂语境下的实体关系抽取湖南师范大学助理教授曾道建博士

论坛名称	知识图谱与智能推荐论坛
论坛时间	03月27日，14:00-17:20
论坛出品	李凤麟博士阿里巴巴阿里小蜜知识云算法负责人
分享时间	分享内容
14:00-14:40	知识图谱辅助的推荐系统斯坦福大学博士后王鸿伟博士
14:40-15:20	电商常识图谱构建及搜索推荐场景下的应用阿里巴巴算法专家李强博士
15:20-16:00	知识图谱在美团推荐场景的应用美团算法专家张梦迪
16:00-16:40	政务知识图谱在搜索中的应用阿里巴巴高级算法专家戴健博士
16:40-17:20	新零售领域多模态知识图谱的建设与应用阿里巴巴算法工程师徐国海

论坛名称	知识图谱与智能问答论坛
论坛时间	03月27日，14:00-16:40
论坛出品	陈帅小米 AI实验室知识图谱团队负责人
分享时间	分享内容
14:00-14:40	小米小爱智能问答系统概览小米高级算法工程师代文博士
14:40-15:20	可快速规模化的知识图谱问答阿里巴巴算法专家唐呈光
15:20-16:00	知识融合的问答技术及应用百度资深研发工程师冯欣伟
16:00-16:40	美团电话场景对话交互技术实践美团资深算法专家陈见耸博士

论坛名称	工业知识图谱论坛
论坛时间	03月27日，14:00-17:20
论坛出品	怀宝兴博士华为云语音语义创新Lab 副主任华为云知识计算首席架构师
分享时间	分享内容
14:00-14:40	基于知识图谱的企业知识计算与应用华为算法专家段新宇博士
14:40-15:20	工业场景知识图谱落地实战云问科技 NLP研究院负责人杜振东
15:20-16:00	知识智能技术在电力领域中的落地实践阿里云电力知识图谱研发负责人邱剑博士
16:00-16:40	企业知识图谱解决方案助力汽车产业数字化升级薄言信息 AI负责人崔安颀博士

论坛名称	金融知识图谱论坛
论坛时间	03月27日，14:00-16:40
论坛出品	李渔博士熵简科技联合创始人
分享时间	分享内容
14:00-14:40	资管知识中台-资管领域知识图谱的构建和应用熵简科技联合创始人李渔博士
14:40-15:20	知识图谱赋能投行智能化创新文因互联 CEO 鲍捷博士
15:20-16:00	基于知识图谱的金融舆情风险分析及自动学习技术第四范式资深算法研究员张永祺博士
16:00-16:40	保险知识大脑-保险领域的知识图谱构建以及业务赋能平安人寿算法专家江炼鑫

论坛名称	医疗知识图谱论坛
论坛时间	03月27日，14:00-17:20
论坛出品	倪渊博士平安科技副总工程师
分享时间	分享内容
14:00-14:40	基于知识图谱的临床风险评估惠每科技 CTO 王实
14:40-15:20	医学知识图谱构建与应用中国医学科学院医学信息研究所副研究员孙海霞博士
15:20-16:00	融合知识与数据的临床决策支持平安科技（深圳）有限公司资深人工智能专家孙行智博士
16:00-16:40	深度应用驱动的医学知识图谱构建浙江数字医疗卫生技术研究院数字医学知识中心主任徐美兰
16:40-17:20	知识图谱实体关系抽取方法及实践腾讯天衍实验室知识图谱和NLP负责人陈曦博士

论坛名称	知识图谱与智能创作论坛
论坛时间	03月27日，14:00-16:40
论坛出品	郑烨翰百度
分享时间	分享内容
14:00-14:40	基于知识图谱的汽车营销文创作智搜信息首席科学家郑海涛博士
14:40-15:20	阿里文娱视频智能生产技术实践阿里文娱算法专家汤旭
15:20-16:00	知识图谱在智能创作中的应用百度资深研发工程师蔡远俊
16:00-16:40	乐府：预训练语言模型在诗词对联生成中的应用华为诺亚方舟实验室研究员廖亿博士

▌如何参与？

a4ebd8ff5085a5f3de26e6ef5e6aed7c.webp.jpg

登录/注册后看高清大图

回复支持反对

使用道具举报

5^#

发表于 2023-3-31 08:52:07 | 只看该作者来自：广东广州来自广东广州

这课题有点超班了

回复支持反对

使用道具举报

快速回复 返回顶部 返回列表

微信扫码查看附近店铺

扫码查看手机版报价

信号元
件查询点位图 AI维修
助手