今日头条的数据使用分析

摘要

自2012年3月后，今日头条快速发展，达到DAU3500W，留存用户3.5亿，人均日消费时长接近一小时[1],成为行业内的让人不可忽视的力量，对订阅式资讯消费等内容产生巨大冲击。今日头条的成功是基于对用户行为的锚定，实现基于用户个性化兴趣的资讯内容推荐，做到“你关心的才是头条”。本文分别对资讯阅读、大数据、算法和个性化推荐分别做介绍，然后再后文中，从今日头条的数据源和数据使用策略进行一定的分析，先得到V1.0分析，后续将对新的分析进行持续跟进，而对于功能层面设计，只进行必要的分析，并不深究，希望和大家来讨论。

基本介绍

资讯阅读指的是用户对文章等内容的消费需求行为。个性化内容推荐是今日头条的杀手锏[2],其胜利也是大数据和算法的胜利。在今日头条之前，资讯阅读是以门户和订阅形式为主，在此之前，Google Reader,网易云阅读等一时风头无两，而在今日头条之后，QQ浏览器、一点资讯、UC浏览器全部开始做起了基于用户兴趣的个性化资讯内容推送。而在使用今日头条时，当持续点击特定主题或者特定tag的文章，内容会集中在这些主题和tag下面，并且对用户点击行为较为敏感。

今日头条首页

大数据[3]最近成为业内追寻的目标，我认为核心在于全，是实现对，描述对象的360度无死角的描述，有针对性的选择重要的数据来解释或预测描述对象的可能发展发现，在咨询阅读中，核心是预测用户的是否为点击特定的文章，其核心便是个性化推荐算法。

个性化推荐是实现用户满意的重要手段，在电商、电影、音乐中已经有了较多的应用，如亚马逊、Netflix和网易云音乐，个性化推荐的核心是对用户的点击行为进行整合，主要分为基于模型推荐以及协同过滤推荐两种，模型推荐是设计负责模型来预测用户对特定文章的偏好程度，而协同过滤推荐是将考虑多个用户和物品的点击关系，如user-based是把和你看过相似内容的用户看过的内容推荐给你，item-based是把你看过的内容中，最近常会被一起看的内容推荐给你。

数据源

今日头条的快速发展离不开其对数据源的以来，在资讯个性化推荐中，数据源可以分为文章资源和用户行为两个方面，

其一是文章资源。今日头条的文章资源除了自己去各大网站上爬下来各种信息资源,实现对全网内容的覆盖，新浪、凤凰、网易等头部网站内容非常重要。另外就是引入了头条号，引入大量UGC的内容，实现有效的文章资源生态圈，通过用户创作，并设定打赏模式，保证写手对内容的优化，从而获得一批深度的内容。

其二是用户行为。用户行为狭义上是用户对文章的点击数据，通过对今日头条的功能分析，可以用到的用户行为如下：

用户曝光数据：用户曝光了的文章；
用户点击数据：用户点击了的文章；
用户不喜欢数据，用户可以选择特定的原因来解释用户为什么对这篇文章不感兴趣，如图所示。从图中可以看出，不感兴趣的理由有重复、内容质量差、来源、文章主题分布以及从标题中抽取出来的关键词。

今日头条的不感兴趣配图
用户搜索行为，在搜索行为中，添加了对用户感兴趣的话题的关心，在体验上貌似并未有效的产生作用，但是对于关键词的基础能力来看，极大的增强了标题内容的重要程度，但是也考虑到文章内容本身和关键词的关系上。
头条号订阅行为，头条号相关的文章下面，让用户选择订阅特定的头条号，形成有效的用户定向内容推送。
文章打赏行为，用户可以对特定文章付费。
用户收藏、评论和分享行为，让用户对特定文章进行收藏和评论。
用户登录行为。今日头条让用户登录新浪微博，从而或者用户在网站外部的信息。
其他行为：爆料、好友行为、话题内容等。

可以看出，今日头条在功能层面对特定文章有较多的设计，而对应的设计都有特定的使用。

数据使用策略

丰富的数据积累是推荐模取得效果的基础，今日头条的数据使用可以分为如下几个部分：

文章资源数据使用
个性化推荐是依赖于优良的文章，通过对今日头条的文章数据分析，可以看出对于文章质量和内容调性的把握上，今日头条投入300+的编辑人力所言不虚，基于这300人力的投入，实现对文章资源的丰富和巩固，在我看来，主要分为这么几个方向：

文章分类和tag提取：今日头条的最细粒度的分类已经做到了300+的能力，这个非常牛逼，而更牛逼的是在技术领域实现对tag提取和语义网的工作，实现文章的聚合。
从今日头条的推荐能力来看，他们已经从主题分类走向了tag语义，带来的推荐效果是多点击几篇三国相关的文章，被推荐内容会迅速集中在三国相关内容，而点击其他后，相关内容会发生显著转移。
在文章分类中，投入大量编辑来持续有效的进行机器学习标注，也是体现出了其价值，但是不是一定要依赖这种劳动密集型产业的方式则值得反思。
文章质量控制。在消费今日头条相关资讯时，明显感知到文章的质量是较优的，极少看到一些三俗的文章，可能就我个人的消费习惯而言的个性化推荐结果，这也说明今日头条已经在文章质量作为一个重要的变量进行分析，而投入人力做标题修改也是很重要的一个质量感知工作。
在文章资源池中，大量的内容是非文本特征的，比如图片和视频。今日头条对图片的处理一方面将各大网站的图集拿过来用，另一个方面则对图片内容较多而文本较少的内容的内容格式重新整合成图集的形式。而在视频这边，也会通过热点视频和用户感兴趣的主题的视频两个维度推荐对应的内容，今日头条的跨业务推荐已经有了一定成果。

用户行为数据使用

登录数据的使用，尤其是微博登录，获取用户的微博行为，有助于快速锚定用户的策略，解决推荐的冷启动问题。
曝光和点击数据
今日头条的个性化推荐算法的核心数据就是用户的曝光和点击数据，根据用户的行为对用户的点击率进行预测，采用点击率预测、相关推荐、协同过滤推荐等方法，获取用户最感兴趣的内容，所以当用户对特定内容感兴趣的时候，会被推荐到这部分兴趣里面去，从而形成持续稳定个性化兴趣和推荐内容输出。
但是这部分的数据无法解决用户新兴趣的探索问题，对于我而言，永远只有历史等内容出现，无法及时有效的获取在科技、体育以及电影这三个方向的兴趣，就笔者刷新结果统计来看，除开一些特定的探索性质的拉取外，平均有50%的内容都是和用户的兴趣相关，若进一步把视频、图片等非资讯形态的内容去掉后，个性化内容可能占比高达70%。
订阅数据
用户的订阅数据是用户主动要求推送的相关内容，对于这部分的数据，今日头条在每一屏中会爆出1篇左右的订阅的头条号推荐的内容，而笔者最多的时候发现3条，这里推测今日头条是基于内容配比的方式，否则难以解释这么稳定的数据输出，对于这一部分，笔者将停止点击订阅数据，看看会不会不再向用户推送相关的内容。
对于用户富交互行为方面，今日头条有用于形成文章质量和相关主题的控制。

总结

大数据时代，数据是进行科学计算、机器学习和个性化推荐的关键，今日头条在业务数据使用上的规则我还要进行深入分析，观察新数据的使用

本期的内容对今日头条的数据使用情况进行了罗列和总结，而在推荐策略和算法层面分析较少，下期将在这两个方面深入。

[1] http://www.cyzone.cn/a/20160109/288150.html
[2] http://mt.sohu.com/20150328/n410458324.shtml
[3] http://dpm-yuanqian.cn/2015/11/29/%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9A%84%E5%BC%80%E6%94%BE%E6%80%A7-open-is-for-bigger/

最后编辑于：2017.12.04 10:50:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

今日头条的数据使用分析

摘要

基本介绍

数据源

数据使用策略

总结

推荐阅读更多精彩内容