python爬虫回顾<一>:爬虫基本介绍,核心结构

学了一段时间的爬虫,现在就把我的一些经验分享给大家。学习爬虫的时候可以用本文作为适当的参考,有不当的或者不明确或者对本文有意见的地方都请大家指出,能让本文加以改正,更加完善。

python 版本2.7

爬虫的介绍

首先爬虫是什么 ?
在我看来 爬虫是能够自动联网 通过指定的方式获取网络上的一些信息 并把这些信息下载到本地的程序或脚本

那么爬虫的可爬取的范围有多少?
凡是能够通过浏览器获得的所有内容都能够爬取得到。

爬取的作用是什么?
爬取的作用是能够自动地获取自己想要的一些有价值的信息。

爬虫的核心结构
爬虫的核心结构有三点,请求,解析,以及存储

这三点会逐个单独的讲解

请求

浏览器是获取信息最常用的方式之一,爬虫的原理和浏览器的原理在某些地方是一致的
那么我们首先了解通过浏览器是怎样获取信息的
以简书为例 首先在浏览器的导航栏里输入http://www.jianshu.com/ 然后按下回车键 ,内容就出来了,当然还可能有其他的内容之类的。回过头来,我们要获取简书的内容,首先得提前通知简书服务器我要访问你啦,你把你的首页的数据给我,让我可以浏览。这种提前通知的方式,就是请求。

我请求简书首页的数据,简书服务器表示我收到了,然后顺着你的IP的地址就给你发过来了。

然后简书搜索框和以及其他内容就会被渲染出来。

学过WEB的肯定知道,百度首页或者说绝大多数网页的内容数据都是通过HTML+CSS以及数据库的数据来组合在一起的。那么为什么浏览器上面没有这些标签呢,这个大家肯定知道,是因为浏览器渲染了这些数据,至于是怎么渲染的那么是另一回事了。那么没有经过渲染的数据就是源码,而我们爬取得到的就是网页的源码。
然后我们可以看看这些源码,拥有非常多的标签在里面,但是我们并不需要。
这时候需要通过解析的方式获取我们想要的数据了。

解析

如何才能在这些网页源代码中找到我们需要的数据呢,就得用解析了。
我解析的方式一般有两种,一种是正则表达式,而另外一种则是DOM树+XPATH。而我现在主要用的方式则是第二种。两种方式的区别是我用一个例子来阐述,A和B夫妻给全家卖了圣诞礼物,儿子C问属于他的那份在哪,母亲A告诉儿子,礼物是在一个红色礼物和一个黄色礼物之间,父亲B告诉儿子礼物是在所有方形礼物盒中的最小的那份。正则表达式就是例子中的A方法,DOM树+XPATH则是B方法。

在我看来 正则表达式倾向于一维位置的搜索,而DOM树更倾向于二维特征的搜索。

储存

针对定位后的数据的存储就很好办了,只要定位数据后把数据保存到本地即可。
也可以直接print到终端,或者保存到TXT文本中,或者数据库中都是可以的。

接下来将会用几个程序来讲讲是如何爬取的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,275评论 25 707
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,049评论 45 523
  • 《山木篇》 方舟而济于河,有虚船来触舟,虽有惼心之人不怒。 有一人在其上,则呼张歙之;一呼而不闻,再呼而不闻,于是...
    一叶虚舟阅读 459评论 0 1
  • 低频的心跳,静止了呼吸,溺在雨中,没有挣扎,即将没落。因我深知死而后生的含义 。
    张雨勋阅读 219评论 0 6
  • 今天订了下个星期去武汉培训的火车票,真是不好意思说,这是我第一次买高铁票,当然也将是第一次乘坐高铁,而且还是因为工...
    邹小芝阅读 344评论 2 5