Python网络爬虫与信息提取(一)

Reference:

第一周 网络爬虫之规则

单元1:Requests库入门

1-1 Requests库的安装

1-2 Requests库的get()方法

1-3 爬取网页的通用代码框架

1-4 HTTP协议与Requests库方法

注意:put与post的区别

1-5 Requests库主要方法解析

                                                           Requests库的7个主要方法

(一). requests库的request方法是所有方法的基础方法,它有三个参数,分别是:

method,url和控制访问参数----> requests.request(method,url,**kwargs)

method表示请求方式,对应get/put/post等7种

url指拟获取页面的url链接

**kwargs控制访问参数,共13个,均为可选项

(1)params

(2)data

(3)json

(4)headers

(5)cookies

(6)auth

(7)files

(8)timeout

(9)proxies

(10)allow_redirects

(11)stream

(12)verify

(13)cert

单元2:网络爬虫的“盗亦有道”

2-1 网络爬虫引发的问题

网络爬虫的尺寸

网络爬虫的“骚扰”(对服务器性能的骚扰)

服务器默认是按照人数来约定它的访问能力,但当有爬虫加入的时候,服务器可能很难提供那么高的性能。

网络爬虫的法律风险(内容层面)

服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险。

网络爬虫的泄露隐私(个人隐私泄露)

网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私。

对于一般的服务器来说,可以用两种方式限制网络爬虫:

(1)如果网站的所有者具有一定的技术能力,可以通过来源审查来限制网络爬虫。

来源审查:判断User-Agent进行限制

检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问。

(2)发布公告:Robots协议

告知所有爬虫 网站的爬取策略,要求爬虫遵守。


2-2 Robots协议=Robots Exclusion Standard 网络爬虫排除标准

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。

形式:在网站根目录下的robots.txt文件。通过基本语法告知网络爬虫,该网站内部资源可以被访问的权限。

规定:robots协议规定,如果一个网站不提供robots.txt文件,则说明这个网站允许所有爬虫无限制的爬取其内容。

Robots协议基本语法:

User-agent:*

Disallow:/

注释:   * 代表所有,/  代表根目录

案例:京东的Robots协议

https://www.jd.com/robots.txt

http://www.baidu.com/robots.txt           百度

http://news.sina.com.cn/robots.txt        新浪新闻

http://www.qq.com/robots.txt                qq

http://news.qq.com.cn/robots.txt           qq新闻

http://www.moe.edu.cn/robots.txt(无robots协议)         我国教育部的网站


2-3 Robots协议的遵守方式

robots协议的使用

网络爬虫:自动或人工识别robots.txt,再进行内容爬取。

约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险。

TIPS.类人行为可以不参考Robots协议

单元3:Requests库网络爬虫实战(5个实例)

3-1 实例1:京东商品页面的爬取

STEP1.  打开京东页面,选取一款商品。比如:https://item.jd.com/4939144.html

通过写程序,获得该商品的相关信息。

STEP2.   全代码

3-2 实例2:亚马逊商品页面的爬取

对于一些保护的比较好的网站,通过模拟浏览器,发起请求。

3-3 实例3:百度/360搜索关键词提交

搜索引擎关键词提交接口:

百度的关键词接口:    http://www.baidu.com/s?wd=keyword

360的关键词接口:    http://www.so.com/s?q=keyword

在这两个接口中,只要我们替换keyword就可以向搜索引擎提交关键词,构造这样的url就可以实现关键词的提取。

3-4 实例4:网络图片的爬取和存储

网络图片的爬取

网络图片链接的格式:

http://www.example.com/picture.jpg

国家地理:http://www.nationalgeographic.com.cn/

选择一个图片Web页面:http://www.nationalgeographic.com.cn/photography/photo_of_the_day/4082.html   右键图片属性

http://image.nationalgeographic.com.cn/2017/0509/20170509021454807.jpg

3-5 实例5:IP地址归属地的自动查询

IP138网站 http://www.ip138.com/

http://m.ip138.com/ip.asp?ip=ipaddress  例如:202.204.80.112 北京理工大学网站

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容