抓取知乎 300W 用户之后，原来我的关注人数竟排在前 1%

前几天写了一个爬虫扔到服务器上，耗时 3 天，我抓取了知乎 2908077 个用户的基础数据。这里简单分享一下数据。

数据说明

在分享数据之前，简单说一下数据的来源，也就是爬虫抓取的规则。

规则很简单，首先抓取知乎第一大 V 张佳玮关注列表里的用户，然后抓取再这些用户关注列表里面的用户，由此类推，直到抓完知乎所有的用户。

值得说明的有两点：其一，只抓取在关注列表里面的用户可以有效的过滤到三无的僵尸用户；其二，在知乎的设置中勾选了「隐私保护」的用户只能对站内用户可见，因此没有登录信息的爬虫是抓取不到其关注列表的。

从数量上来说，这份知乎用户信息应该是很全面而且有效的，因为爬虫抓取了知乎完整的关注关系链，粗略的可以认为知乎的有效用户大约是 300 W。当然，如果从个人信息维度来看，数据就显得很薄弱，因为仅仅抓取了每个用户最简单的几个基础数据。原因也很简单，因为我的初衷核心是写一个爬虫，而不是去抓取知乎的用户信息。

知乎用户数据

知乎关注人数 Top 10

首先，知乎关注人数 TOP 10 的大 V 大家都很熟悉，如下：

用户关注人数 TOP 10

其中，知乎第一大 V 张佳玮的关注人数为 1248627，因为不知道里面的僵尸粉有多少，假设没有僵尸粉（这是不可能的），那么知乎平均每 3 个有效用户就有一个关注他。

他们的回到问题数量和文章数分别如下：

Top 10 的回答数量和文章数量

可以看得出来，张佳伟不管是回答数量和文章数量都远超其他 9 个大 V，确实勤奋和高产。而排名第二的李开复老师就相反了，不管是回答数量仅有 107 个，文章也只有一篇，均是垫底。但是作为知乎第二大 V ，不得不说名人效应十分明显。另外黄继新和周源情况相似，回答数量和文章文章都相对较少，但是排在第三和第四和他们作为知乎的创始人应该有很大的关系。最后不得不说一下葛巾貌似是出走过一次知乎，然后删除了很多答案，具体情况不是特别了解。

粗略的看下来，排除特殊情况，貌似关注人数和回答数量成正相关，所以想要获得更多关注的小伙伴多多回答问题吧。

关注人数

关注人数的分布如下：

知乎关注人数分布图

可以看出，关注人数分布图是很符合社会资源分配规律的。要注意的是，我抓取的用户是在关注列表里面的，意味着他们至少有一个关注者。关注人数只有个位数的仍然占到了 83%，然后依次是 15%，2% 和 1%。而关注者超过 1W 的仅有 2586 位，占 0.09%，他们应该可以被称为知乎大 V 了。

值得一提的是，我去年春节的时候回到过一个问题「你因为睡觉太死错过什么重要的事情」可能比较搞笑或者像段子，到目前为止收获了 5.2k 的赞。我仅仅因为这个突然火了的回答，偶尔就会有小伙伴关注，当然到目前为止也只有 350 个关注者。但是，关注者超过 350 的仅仅只有 33420 个用户，只占了 1.1%，如果算上那些极度不活跃用户和僵尸用户，就仅仅这 350 个关注者还真可以排进前 1%，但是如果要前 0.1% 的话，则要求关注数要接近 1W。再次证明很像社会资源分布一样，阶梯分布十分明显，极少部分人拥有了绝大部分资源，而绝大部分人却只拥有极少的资源。

回答数量

回答数量的分布如下：

知乎用户回答数量分布图

可以看到这 300W 的用户中，没有回答一个问题的用户占到了 46%，而回答问题在个位数的也占了 38%，两者加起来占了知乎 85% 的用户。而回答数量超过 1000 条的仅仅只有 739 个人。和绝大部分大众社区一样，大部分都是吃瓜群众，只有少部分是内容的生产者。

文章数量

文章数量的分布如下：

知乎用户文章数量分布图

数据很直观，没有写过文章的用户占到了 97%，再次强调他们是在关注列表里面的有效用户。而超过 10 篇的用户，仅仅只有 11478 位。还是那句话，内容生产者少数，吃瓜群众才是社区的大多数。

写在最后

虽然保存每个用户的信息很少，但是依旧还有一些信息可以挖掘，比如，用户是某个或某几个话题的优秀回答者，相关信息也有保存。但是，今天暂时就分享这么多。结论一点也不出乎意料，知乎现在就是一个以普通用户为主体的大众社区。这几乎是任何一个社区高速扩张所不能避免的结果。个人感觉，随着知乎的扩张，用户量急剧增加同时，高质量内容的比例下滑，而高质量内容的数量却没有明显的增加，其中段子、鸡汤文和情感类所占比例太大，而这些话题恰好是普通大众喜闻乐见的。我以后或许会找个机会再挖掘一下相关的数据，从数据角度证明一下。

最后，我的初衷仍然是写个爬虫而已。我爬知乎的原因仅仅是因为我能爬知乎。

最后编辑于：2017.12.05 07:08:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343