如何确定网页中的数据是什么数据包发过来的

回答一个同学的提问,为什么网站中的数据,明明BeautifulSoup,XPath写提没有问题,却没有抓取到数据,如何决判断这个数据是异步加载的,异步加载的包怎么找?

1、现在很多网页都采用了异步加载的方式(Ajax),好处可以大大提高网站响应速度和用户体验度。

AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。
AJAX = 异步 JavaScript和XML(标准通用标记语言的子集)。
AJAX 是一种用于创建快速动态网页的技术。

通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
传统的网页(不使用 AJAX)如果需要更新内容,必须重载整个网页页面。

一般的做法是,当前网页的主要信息内容会首先加载进来,大的图片,非本页面核心相关的内容稍后异步的方式加载进来(json数据)

这是简页首页,大家看到打开首页时,向服务器发送了93个请求,包括首页document, js(javascript), 图片,和json数据。

对于首页来说,用户首先要看到的是热门文章,所以右边的推荐作者就是异步加载进来的

我们用chrome右键检查时,比较容易找到这个异步的请求,返回的就是json,找的方法,就是看请求Name 和 type,排除图片和js再看名称,基本就能确定下来,简书代码也是相当整洁优雅,看名字 recommended?page=1&per_page=5 这个就是页面上的右边的推荐作者。

不过从这个页面的抓取来说,首页我们关注的数据是文章,文章URL和阅读量,评论数,点赞数和文章作者。在一个页面我们不会去处理推荐作者的数据信息。

这里就是一个分析。上次视频中Young在这里讲到分析这个URL,可以快速抓取到所有推荐作者的信息。有兴趣的同学也可以对推荐作者的信息进行一下分析。

另外还要说明一点:使用chrome右键检查工具,是能够找到异步加载的数据的标签 ,xpath路径的,但是如果是用页面的URL去抓取数据肯定是获取这个内容的,因为数据都还没有进来。而chrome的右键检查,在页面所有数数据加载完成了。无论是同步数据,异步加载的数据最后都会渲染在网页中的,也就是有一样的样式,能够找到它的标签或xpath。

而在网页中右键源代码的方式查看,一般看的是一次请求的源代码,这时是你看异步加载的数据。如果你网页比较熟悉或者看得比较有,有些网页内容很多,你右键查看源代码,可能没有这么多内容或者代码比较少,仔细看一下,这可能是一个框架页面(之前用得比较多点)。

所以检查一个页面中的数据哪些是异步请求(大家俗称是“包”),要确定哪些是“包”,一是多分析网络请求,二是掌握页面的一些规律。

大家可以对比分析一下拉钩网的职位数据抓取。

2、遇到一些异步加载的数据,怎么也找不到包怎么办?
大家可以看一下58岗位的抓取时,这个岗位的 浏览量和申请人数,会发现这个也是一个异步数据。(这种也是一个网页特点)

但是这个异步数据的“包”,真找不到(可能藏在某个js的请求中)

如果需要这个数据怎么办,就只能用其他方法。可以参考 http://www.jianshu.com/p/3abbc259f55a

总之,分析网页,分析请求,确定类型,快速用不同方式去尝试。这也大概是爬虫学习和数据抓取的魅力。你可能每次遇到的问题都不太一样。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容