Fan X, Wang J, Pu X, et al. On Graph-Based Name Disambiguation[J]. Journal of Data & Information Quality, 2011, 2(2):1-23.
Reference Disambiguation
几乎所有的解决方法都考虑文档的多种属性(title, abstract, author's email, affiliation, coauthor, topic of document, edit distance, revelance of keywords)-->定义feature-based similarity --> 用来判定任意一对文章是同一个作者书写的概率。
- Kalashnikov and Mehrotra [2006]
- On et al. [2006]
- On and Lee [2007]
- Bekkerman and McCallum [2005]
- Lee et al. [2005]
- Han et al. [2004, 2005].
此外,有很多 图模型 方法被用来计算两个对象之间的关系相似度。
- Minkov et al. [2006] 带标签的有向图 -> 基于lazy graph walk生成关系相似度,实现邮件中人名的消岐。
- Chen et al 2007, 自适应的图模型来实现消岐,graph中节点的相似度是 节点的传统feature-based similarity 和 节点的connection length 的 组合。
本文 仅考虑connection strength, 计算形式上与Chen2007也不同。
Kalashnikov and Mehrotra [2006] 通过 legal path 来定义connection strength,刻画entities之间的连接程度。
On et al [2006] 利用Quasi-Clique来探究上下文信息,而不单单考虑节点的相似度。【猜想:这里是指节点与所在团簇的相似度吗?】
Name Disambiguation
当数据量大,手动采集文档的信息(emails, affiliations,...)非常耗时,这些信息有时候在文档中是 缺失的 、或者 包含名称变体 。 【其实这句话,引出本文为什么仅仅用coauthors, 而不用这些信息】
前人的做法:(Two-stage)
①构建相似度度量标准
②选择聚类(分割)方法将文档集合 --> clusters
如,Han et al 2004 提出有监督学习(naive bayes, SVM), 为每一个作者训练一个分类器,随后这些分类器s 用来判定新文献的作者是哪一个实体。缺点:手动标记训练数据很累,此外,按这种策略,“entity的数目==分类器的 数量” 是不切实际的。
Zhang et al 2007, 用6种约束,为半监督name disambiguation 设计了一种概率模型。该模型基于HMM。缺点很多。
Yin et al 2007 结合了两个互补的度量,set resemblance of neighbor tuples and random walk probability. 【看来有必要看一下这个】
本文的思路: (5-stage, section4.1-4.5分别介绍)
- graphical view of the input database
- Coauthor graph to represent the relations among papers.
- valid path selection
- 前提假设:在一段时间内,一个作者的研究方向、机构、coauthors比较稳定。
- similarity metric among nodes
- 借鉴并联电路计算总电阻的套路,设计了节点相似度计算函数
- clustering framework
- AP聚类算法
- user feedback
4.1 graphical view of the input database
如何能知道r1,r2中的Jiong Yang是同一个人呢?我们不知道啊!!那么为什么能用同一个节点表示!!!完全搞不清作者为什么这么做!!!!
【仔细想想的话认为Jiong Yang是同一个人是有道理的:毕竟不要忘了一个前提,两篇文档中的Jiong Yang有着共同作者Wei Wang,我们有理由相信两个Jiong Yang极有可能是同一个人,这种连接构图形式使得两个WeiWang距离很近】
如果有r7(r7的作者是 Wei Wang 和 Zhang San), 那么上图将出现一个新的孤立小簇,[WeiWang---ZhangSan]. 此时我们该WeiWang从结构上来说与其他6个WeiWang的距离就比较大,这也符合我们从coauthor的角度的直觉判断。因此,总的来说,这种构图还是比较合理的。
4.2 valid path selection
如何计算任意一对WeiWang的similarity呢?
最短路径很耗时,宽度优先搜索耗时 O(|V|+|E|),需要再想办法!
valid path selection的基本思路从large graph筛选一些对计算最短路径有意义的边,而忽略掉一些冗余的边。
4.3 Similarity Computation
The similarity denotes the confidence of two nodes corresponding to the same author
思路很棒,借鉴了并联电路的总电阻 实现了以下considerations:
①考虑路径的长度
②考虑路径的数量
后面稍加改进为:
4.4 Name Clsutering
- AP聚类,对于n个WeiWang, 输入为nxn的相似度矩阵,输出是n个WeiWang的类别划分。
4.5 User Feedback
- 略