python-爬虫系列教程-前期知识

关于爬虫的前期认知：

爬虫的内容：获取你能看见的网页内容或移动APP的内容。下面主要讲解网页内容

另外，爬取站点以m站优于wap站优于pc站的顺序查看。原因很简单，因为m站最简单（手机端），最难的就是pc站了。所以如果在m站能找到你需要的所有信息就在m站吧

针对需爬取的内容分为三种，

一是包含在HTML源代码中的内容（源代码可鼠标右键选择查看源代码则可以看见当前网页的HTML源代码，或者ctrl+U键）；这种情况直接获取HTML代码解析即可，最简单的一种情况。

二是Javascript加载的内容，有的时候你会发现这样一种现象，明明在页面上显示的某个元素在源代码中就是找不到，（查找可用ctrl+f键）。这种情况则是由于该元素是由JS动态生成在页面中。这种需要解析JS，或者霸王硬上弓，采用selenuim模拟浏览器行为。

三是AJAX异步请求，通常发生在某些网站的分页应用，新浪微博就是一个很好的例子。当你鼠标不断往下滑，不断动态加载新的内容。这种情况需跟踪核心的请求，请求后面会讲解，抓取这个异步请求即可。

爬虫的过程是：发送请求——获得返回数据——对返回数据进行解析。

HTTP请求

是什么？请求可以产生于你在浏览器地址栏输入的http地址，当你按下enter键的那一刻，实际上就是向服务器发送了一个请求，另外，而请求也并不仅限于可见的http地址，比如当你浏览微博时，不断往下滑而加载出新的内容实际上请求也在发生，可以理解为下滑的这个交互产生了请求。

怎么看？请求过程可以在浏览器的开发者页面的网络中看到，快捷键为ctrl+shift+I，如下图所示，发送了4个GET请求（请求分为GET和POST两种），还可以查看特定返回类型的请求，如HTML类请求，在最下面一栏筛选，该界面可能在不同的浏览器有一些差异，不过大体是相同的，这里展示的是火狐浏览器的界面。

点击上图红色圈圈的图标，可看到请求的具体组成部分：标题头、cookies等

返回数据

请求返回正如上面提到的HTML类请求，这里是按返回数据来分，还有图片、媒体、css等，在爬虫中需要得到的返回数据一般为HTML源代码和JSON数据。JSON数据发生在异步加载的过程中，也就是第一幅图的XHR请求中。

解析数据

若是HTML代码，则可利用BeautifulSoup等库工具进行解析，或者直接利用正则表达式

JSON数据是结构化数据，可利用python内置的json库进行载入提取。

关于Python的学习

python是一门语法简洁、功能强大的语言。如果你有C语言或者其它编程语言的学习经验，python会很好上手。具体学习可参考python的官方文档：python documention

关于python的下载安装可参考:菜鸟教程：python教程.不习惯看英文文档也可以参考该网站的教程

在安装过程中关于环境变量的设置有一个小贴士，其它软件也适用。环境变量有的时候会让人有点头疼。首先要理解为什么要设置环境变量，环境变量其实有点类似于快捷方式，以python为例，设置好环境变量后则可直接在cmd中运行python命令，比如下图中输入python命令后则可进入shell模式。所以环境变量的设置像是间接打开了python的应用程序。所以环境变量设置成python.exe所在的文件目录即可。其它类型的环境变量同理，重点是找到你所需指向的文件所在目录。

结语

之后的会根据需爬取的网页类型进行分阶段案例讲解，敬请关注。

最后编辑于：2017.12.07 03:03:56

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342

python-爬虫系列教程-前期知识

关于爬虫的前期认知：

爬虫的内容：获取你能看见的网页内容或移动APP的内容。下面主要讲解网页内容

爬虫的过程是： 发送请求——获得返回数据——对返回数据进行解析。

关于Python的学习

结语

推荐阅读更多精彩内容

爬虫的过程是：发送请求——获得返回数据——对返回数据进行解析。