伴随着大数据应用和人工智能的发展,相比传统的线下市场研究分析,大数据使得企业能够通过互联网方便地获取用户的反馈信息更为广泛。
云捷亮数主导的创新性市场研究,中国首创提出了通过“大小数据结合”的研究方式,为大数据的应用能够真正落地提供技术支撑和理论依据。这其中,随着对用户行为的了解的深入,云捷亮数的用户标签化已经能够完美的抽象描绘出用户信息全貌。
为精准地描述用户特征,云捷亮数的社区标签从原始数据进行统计分析,获取事实标签,进行建模分析得到模型标签,再进一步模型预测,得到预测标签;最后从宏观层面总结,完成具体的数据架构。
不同的标签是用于区分用户的重要程度,当标签收集后,根据数据集的情况赋予标签相应的权重。不同标签的来源用户质量、标签的传递路径、转发关系、标签的本身以及标签与用户之间的共现关系都会考虑在内。
具体为:不同质量的用户自身产生的标签权重不甚相同。一般质量越高,该标签的可信度越高;无论是将该标签赋予自身还是传递出去时,其权重值越高;标签的传递路径主要是针对基于关注关系的标签传递,亲密度比较高的关注用户传递过来的标签权重值会比较高。
如果标签本身是常见词语,那么用于刻画用户的兴趣的区分性较差;相反,如果是一个长尾词,则区分性较强。出于这样的考虑,越是长尾词,标签的权重值会越高。标签与用户的共现关系是指用户和该标签是否经常共同出现,评价的是两者的关联性。关联性越高,则标签的权重值越高。
综上所述,一个标签对于特定用户的权重值可以大致表示为:标签权重 = (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。
云捷亮数会充分考量时间的变化因素,在标签权重值上叠加一个时间衰减函数,这个时间衰减函数被设计成指数衰减的形式,通过定义衰减幅度和半衰期,调节衰减的程度,体现不同的时效性。
在计划构建用户标签化时,云捷亮数能够提供一个系统性、框架性的思维指导。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。云捷亮数中国首创基于大数据和社区型研究的标签筛化技术,正在为创新性调研的发展提供坚实的技术支撑。
END
常永康
技术总监
近20年以上技术开发经验;曾任知名互联网公司平台开发负责人。分布式存储和NoSQL数据库技术(如MonogoDB、Redis、ElasticSearch等)专家,在深度学习、NLP、知识图谱、GAN等领域具有较为深厚的理论研究和实践经验。