从twitter 中提取用户信息的论文
第一遍阅读
1.1 论文类型
这篇论文的应用性很强
1.2 论文领域
1. weakly supervised learning
利用ground truth information
作为监督学习的标签。这种做法能够避免对大量标注数据的需求。
2. relation extraction
从文本中提取三元关系。例如employ(person a,person b)
等等。
1.3 假设正确性讨论
1.社交网络属性:拥有相似兴趣爱好或者背景的人容易成为朋友。
2.文本特征:twitter 的文本中包含这关于人物属性的一些内容。
1.4 主要贡献
1.将人物属性提取从一元属性(unary property
)扩展到多元属性,并且将问题顺势从分类问题转化成了关系提取的问题。
2.结合社交网络和文本特征两大特征进行预测。
3.对于任意一个待确定的人物属性(spouse,education,job
)都至少有一条twitter 能够体现出来。(黑人问号脸????)
第二遍阅读
第二遍阅读关注论文模型
这是一篇写于2014年的论文,很明显采用的是机器学习的方法,用的是基于概率的学习思路。一言以蔽之,就是求联合概率分布,用极大似然估计进行参数估计。文章利用了两部分的数据:twitter的文本特征和社交网络的网络特征。从这两个数据中提取出相应的特征,然后根据做出的假设(这里没啥假设,就是线性求和)计算能量函数,最后利用能量函数构造概率表达式。