主要内容:
随着社交媒体的广泛使用,利用社交媒体数据研究社会问题成为一种趋势。但是,由于文化、语言、政治等因素,单一社交媒体平台有封闭性,要想获得真正全面的人口样本,不能依赖单一社交媒体平台数据。
本文构建了一个异构社交网络信息采纳模型,并利用InfoMap算法进行社区划分以提取社区特征,由此提出四个假设:
1.推特和微博用户可以通过不同的关系和路径被连接,从中提取的特征对预测每组用户的信息采纳是重要的。
2.对于从某种关系中提取的某个相同特征对推特和微博用户的信息采纳贡献是不同的。
3.如果用户i属于社区k,那么从社区k中提取的特征对预测用户i的信息采纳有统计学意义。
4.社区内部和外部特征对于预测社交网络中的信息采纳是重要的,社区内外部的特征对信息采纳贡献是不同的。
在实验部分,分别收集连续九天新浪微博和推特的消息,并提取用户信息、标签和关系信息,进行数据清理之后,将其中的前七天数据作为训练数据,后两天数据作为测试数据。利用随机森林分类器生成四个模型,并比较模型性能。之后进行变量重要性测量,比较不同特性对两个平台的重要性。为了探究标签采纳行为的潜在因素,采用结构方程建模进行验证性因子分析。
通过实验结果验证了四个假设。发现推特和微博用户的信息采纳模式不同,推特注重“回复”,微博注重“@”;对推特和微博用户来说,社区内部特征对信息采纳预测都很重要。
未来研究:
提高标签质量,更复杂的社区检测方法以提取更多特征,区分标签和实体。
知识点:
社交媒体泡沫Filter bubble
社交媒体信息挖掘
异构社交网络:转发、回复、@、标签
原文:
Comparing Community-based Information Adoption and Diffusion Across Different Microblogging Sites