Facebook:BigGraph 中文文档-从实体嵌入到边分值(PyTorch)

源链接:https://torchbiggraph.readthedocs.io/en/latest/scoring.html

Embeding 训练的目标是将每个实体嵌入到R空间中,并且让两个实体的嵌入能很好地预测他们之间是否存在某种特定的关系。

更准确地说,训练的目标是为每个实体学习嵌入并为每个关系类型学习一个函数。函数接受两个实体嵌入,为它们分配一个分数。函数主要是为了让相关实体比不相关实体能获得更高的分数。

训练集中提供的所有边都被视为正实例。为了进行训练,还需要一组负边。这些负边不是由用户提供的,而是由系统在培训期间生成的(参见见负抽样),通常通过固定左侧实体和关系类型并抽样一个新的右侧实体,反之亦然。这种抽样方案在大型稀疏图是合理的,因为这样生成的边在图中是真正边的概率很低。

通常来说,实体嵌入可以在R空间中取任何值。但是,在某些情况下(例如,当限制它们在某个球内时,或者当使用余弦距离比较它们时),它们的“角度”将比它们的范数更重要。

每个关系评分函数必须以特定的形式表示(文献中最常见的功能可以转换为这种表示)。在当前的实现中,只允许对其中一个边的嵌入进行转换,然后使用通用的对称比较器函数将其与另一个边的未转换嵌入进行比较,这对于所有关系都是相同的。形式上,对于左侧实体x和右侧实体y,以及对于关系类型r,得分为:fr(θx,θy)=c(θx,gr(θy)).其中θx和θy分别是x和y的嵌入,fr是r的得分函数,gr是r的操作器,c是比较器。

在“正常”情况下(所谓的“标准”关系模式),运算符仅应用于右侧实体。使用动态关系时不是这样。将运算符应用于两侧通常是多余的。另外,与另一侧相比,首选一侧可以打破对称性并捕捉边缘的方向。

Embeddings 嵌入

嵌入表示存在在D维真实空间中,其中D由维度配置参数确定。通常,每个实体都有自己的嵌入,这完全独立于任何其他实体的嵌入。当使用特征化实体的方法不同,是实体的嵌入将是其特征嵌入的平均值。

如果设置了max_norm配置参数,则每次参数更新后,嵌入将以半径max_norm投影到单位球上。

如果要添加新的嵌入类型,需要实现torchbigraph.model.abstractEmbedding类的子类。

Global embeddings 全局嵌入

当global_emb配置参数被激活,每个实体嵌入通过一个特定的实体类型向量(与嵌入同时学习)来转化。

Operators 操作器

none,无操作,使嵌入保持不变;

translation, 平移,增加了嵌入相同维的向量;

diagonal, 对角线,将每个尺寸乘以不同的系数(相当于乘以对角线矩阵);

linear, 线性,应用线性映射,即乘以一个全平方矩阵。

affine, 仿射,应用仿射变换,即线性后接translation。

complex_diagonal,  复数_对角线,它将D-维实向量解释为D/2维复向量(D必须是偶数;向量的前半部分是实向量,后半部分是虚向量),然后将每个条目乘以不同的复杂参数,就像diagonal一样。

所有操作器的参数是在训练中学得的。

如果要自定义操作器,我们需要实现torchbiggraph.model.AbstractOperator的子类(在动态关系情况下实现torchbiggraph.model.AbstractDynamicOperator子类,docstrings解释了必须实现什么)并且在torchbiggraph.model.register_operator_as()装饰器中注册(或者torchbiggraph.model.register_dynamic_operator_as())指定一个新名称,然后在配置中使用该名称来选择比较器。上述所有操作都可以在配置文件内部完成。

Comparators 比较器

可用的比较器有:

dot,点积,计算两个嵌入向量的标量或内积;

cos,cos距离,是两个向量之间夹角的余弦,或等于点积除以向量范数的乘积。

l2,负的l2距离,也就是欧几里得距离(负是因为较小的距离会得到较高的分数)。

squared_l2,负平方L2距离。

自定义比较器需要实现torchbiggraph.model.AbstractComparator 子类并且在torchbiggraph.model.register_comparator_as()装饰器中注册,指定一个新名称,然后在配置中使用该名称来选择比较器。上述所有操作都可以在配置文件内部完成。

Bias 偏置

如果使用了bias 配置,那么嵌入的第一个坐标将作为比较器计算中的偏差。这意味着比较器将仅根据向量的最后一个D-1条目进行计算,然后将两个向量的第一个条目都添加到结果中。

Coherent sets of configuration parameters 相关配置集

本章中描述的参数在配置文件中集中显示(为了更接近实现,并允许更灵活的调优),但它们的某些组合比其他组合更优。

除了默认配置外,还发现以下的配置效果较优:init_scale = 0.1, comparator = dot, bias = true, loss_fn = logistic, lr = 0.1.

Interpreting the scores 分值解释

在训练过程中,不同的应用会基于不同的损失函数,这让得到的分值有不同的解释。常见的包括对和实体有关联关系的实体排序,确定两个给定实体之间存在某种关系的概率等。

Todo:

讨论如何使用训练好的嵌入(例如,计算P(edge)、k-最近邻(k-nearest-neighbors),或基于特征进行训练下游分类器)。同事,如果有一个小脚本,给它一个边它可以输出一个分数或者近似的工具,那就太好了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容